语料库关键词检索结果

语言模型从混合到专业领域的最佳分割

Optimal Splitting of Language Models from Mixtures to Specialized Domains

本文在 ICLR 2026 基础模型导航和解决数据问题研讨会上被接受。由于可用预训练数据的规模和多样性,语言模型在各种知识、语言和推理任务上取得了令人印象深刻的性能。标准训练方法是一个两阶段范例:首先对完整的数据语料库进行预训练,然后对完整语料库中的高质量、专业数据的子集进行专门化。在多领域设置中,这涉及在每个专门领域上持续预训练多个模型,称为……

缩小法学硕士文本和语音理解之间的差距

Closing the Gap Between Text and Speech Understanding in LLMs

大型语言模型 (LLM) 可以进行调整,将其文本功能扩展到语音输入。然而,这些适应语音的法学硕士在语言理解任务上始终表现不佳,甚至低于基于文本的法学硕士,甚至级联管道。我们将这种缺陷称为文本-语音理解差距:相对于基于原始文本的 LLM 处理等效文本,当适应语音的 LLM 处理语音输入时观察到的性能下降。最近缩小这一差距的方法要么依赖文本语料库的大规模语音合成,但成本高昂且严重依赖……