Optimal Splitting of Language Models from Mixtures to Specialized Domains
本文在 ICLR 2026 基础模型导航和解决数据问题研讨会上被接受。由于可用预训练数据的规模和多样性,语言模型在各种知识、语言和推理任务上取得了令人印象深刻的性能。标准训练方法是一个两阶段范例:首先对完整的数据语料库进行预训练,然后对完整语料库中的高质量、专业数据的子集进行专门化。在多领域设置中,这涉及在每个专门领域上持续预训练多个模型,称为……
State and Local Language Access Efforts Amid Federal Policy Shifts
本次网络研讨会重点讨论州和地方语言使用政策在当今快速变化的联邦政策环境中日益重要的相关性,并重点介绍了 MPI 最近的一份报告的调查结果。
Making Multilingual Education the Norm in California
上个月,倡导组织 Californians Together 发起了全民多语言教育 (MLE4ALL),这是一项新的全州范围活动,旨在扩大全加州学生获得多语言教育的机会,并加强双语和双语教育的途径。全民多语言教育运动是一项长期努力,旨在确保多语言教育成为[...]
Opinion: When Language Becomes a Barrier to Special Education
在我们的研究中,母亲第一次听到女儿说“妈妈”时,并不是通过言语。它是通过学校的通讯平板电脑实现的。索菲亚 (Sofía) 是一位患有自闭症的 6 岁女孩,按下按钮,一个数字声音就说出了她母亲多年来一直想听到的一句话。那一刻带来的不仅仅是喜悦。 [...]
From One Major to Three in Four Years: Connecting Data Science, German and Linguistics at Montclair
在针对当地儿童的德语课程和档案翻译项目中,伊莎贝拉·萨拉特·冈萨雷斯 (Isabella Zarate Gonzalez) 展示了蒙特克莱尔将 STEM、世界语言和社区参与相结合如何帮助她将自己的兴趣融入单一路径
A better method for identifying overconfident large language models
这种用于测量不确定性的新指标可以标记幻觉并帮助用户知道是否信任人工智能模型。
Try these language puzzles from North America’s biggest linguistics competition
20 年来,这项计算语言学竞赛激励了人工智能和语言保存领域的新一代创新者
Prose2Policy(P2P)是一个基于LLM的实用工具,它将自然语言访问控制策略(NLACP)转换为可执行的Rego代码(开放策略代理(OPA)的策略语言)。它提供了一个模块化的端到端管道,可以执行策略检测、组件提取、模式验证、linting、编译、自动测试生成和执行。 Prose2Policy 旨在弥合人类可读访问要求和机器可执行策略即代码 (PaC) 之间的差距,同时强调部署可靠性和可审核性。我们在 ACRE 上评估了 Prose2Policy...
AP® 西班牙和法国同事:充满信心地拥抱即将到来的变化!去年春天,我们获悉 AP 世界语言和文化课程和考试的修订,并于 11 月共享了预览课程框架。我们现在知道什么会改变,什么不会改变。我们应该担心吗?绝对不需要,变化是积极的!核心教学仍将侧重于真实资源,[...]
Top 10 podcasts to help you learn a language
从日语视频到德语新闻,语言博主 Lindsay Dow 推荐她最喜欢的播客,让您在提高技能的同时保持动力和灵感。多亏了夏奇拉,我早在上世纪九十年代初就成为了一名语言瘾君子。从那时起,我继续在开放大学攻读法语和西班牙语学位,同时我还学习了普通话、意大利语、德语和其他各种语言。由于正式学习永远不够,我一直在寻找其他方法来调动我的语言学习大脑,播客就是其中之一。以下是我最喜欢的一些:继续阅读...
mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR
带可验证奖励的强化学习 (RLVR) 已成功应用于显着提升预训练大型语言模型的能力,特别是在数学和逻辑问题领域。然而,当前的研究和可用的训练数据集仍然以英语为中心。虽然过去已经创建了多语言训练数据和基准,但它们在创建时并未考虑到 RLVR 和当前模型的功能,而且它们的难度通常太低,无法为当前模型提供适当的训练信号。为了解决这一差距,我们提供了 mAceReason-Math,...
Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments
我们提出了多语言推理 Gym,它是 Reasoning Gym(Stojanovski 等人,2025)的扩展,它可以在程序上生成跨 14 种语言的可验证推理问题。我们翻译 94 项任务的模板,并以 10 种语言进行母语验证,并进行有针对性的代码或模板调整,以确保语言的自然性。多语言推理 Gym 保留了原始 Reasoning Gym 中使用的程序生成方法的核心优势,例如几乎无限的问题实例生成和可调整的难度,并且仍然可直接用于强化......
10 Great Books If You Want To Learn About Natural Language Processing
自然语言处理(NLP)是人工智能的核心部分。有很多文献涵盖了这个主题。但是如何才能找到有关 NLP 的最佳书籍呢?一个简单的解决方案是询问专家。这就是为什么我们准备了关于 NLP 的十大必读书籍(和电子书!)清单。如果您想了解自然语言处理,我们相信 [...]Artykuł 10 本好书 pochodzi z serwisu DLabs.AI。
7 Key Benefits Of Using Natural Language Processing In Business
自然语言处理(NLP)是人工智能最重要的组成部分之一。世界各地的公司越来越多地投资于基于 NLP 的解决方案。为什么会这样呢?因为他们看到了商业潜力。如果您怀疑该技术能否使您的组织受益,让我们看看我们是否可以改变您的想法。这是 […]Artykuł 在商业中使用自然语言处理的 7 个主要好处 pochodzi z serwisu DLabs.AI。
How Vision Language Models Are Trained from “Scratch”
深入探讨如何微调纯文本语言模型以*查看*图像如何从“从头开始”训练视觉语言模型一文首先出现在《走向数据科学》上。
Debate on New Kazakhstan Constitution Exacerbates Linguistic and Ethnic Divides
内容提要:关于哈萨克斯坦新宪法的辩论(定于 3 月 15 日通过全民公决)加深了该国内部的语言和种族分歧(参见 EDM,2 月 17 日;RITM Eurasia,3 月 2 日;Altyn-Orda,3 月 9 日)。莫斯科认为这些修订威胁了俄罗斯和俄语在哈萨克斯坦的作用,并且[…]关于哈萨克斯坦新宪法的辩论加剧了语言和种族分歧首先出现在詹姆斯敦。