初始化关键词检索结果

智能扩展:通过小型模型初始化加速大型语言模型预训练

Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。语言模型的预训练阶段通常从随机初始化的参数开始。根据当前扩展模型的趋势,训练它们的大量参数可能非常缓慢且成本高昂。相比之下,小型语言模型的训练成本较低,但它们通常无法达到大型模型的准确性。在本文中,我们探索了一个将这两种不同机制联系起来的有趣想法:我们能否开发一种使用……初始化大型语言模型的方法

问题解决者进行收购

A PROBLEM SOLVER TAKES ON ACQUISITION

原力面孔:GIOVANNI ODDO,作者:Ellen Summey 指挥/组织:战术网络初始化和配置产品负责人、项目负责人...

发布通知:提高马尔可夫链蒙特卡罗定向水文模型校准可靠性和效率的实用两阶段方法

PUBLICATION NOTICE: A Practical Two-Phase Approach to Improve the Reliability and Efficiency of Markov Chain Monte Carlo Directed Hydrologic Model Calibration

摘要:马尔可夫链蒙特卡罗 (MCMC) 方法广泛应用于水文学和其他领域,用于贝叶斯框架中的后验推理。正确构造的 MCMC 采样器可以保证收敛到正确的极限分布,但收敛可能非常慢。虽然大多数研究的重点是改进用于在马尔可夫链中生成试验移动的提案分布,但这项工作的重点是有效地为基于群体的 MCMC 采样器找到初始群体,以加速收敛。四个案例研究,包括两个水文模型,被用来证明使用多级单链接隐式过滤随机全局优化来初始化种群,既降低了总体计算成本,又显着增加了在约束条件下找到正确极限分布的机会。固定的计算预算。

深度学习 (NLP/DL) 的自然语言处理的未来

Future of Natural Language Processing with Deep Learning (NLP/DL)

我最近参加了 Kevin Clarke (CS224n) 的演讲,他在演讲中谈到了 NLP 的未来趋势。我写这篇文章是为了总结和讨论最近的趋势。幻灯片片段来自他的客座演讲。有两个主要主题奠定了深度学习 NLP 的趋势:1. 使用无监督 / 未标记数据进行预训练2. OpenAI GPT-2 突破1. 使用无监督 / 未标记数据进行预训练监督数据昂贵且有限,我们如何使用无监督数据来补充训练和监督微调以做得更好?让我们将其应用于机器翻译的问题,看看它如何有所帮助 - 如果您有 2 个不同语言的文本语料库(转录或维基百科文章),没有跨语言映射。我们可以将其用于预训练,在两个语料库上分别训练编码器和解