范例关键词检索结果

语言模型从混合到专业领域的最佳分割

Optimal Splitting of Language Models from Mixtures to Specialized Domains

本文在 ICLR 2026 基础模型导航和解决数据问题研讨会上被接受。由于可用预训练数据的规模和多样性,语言模型在各种知识、语言和推理任务上取得了令人印象深刻的性能。标准训练方法是一个两阶段范例:首先对完整的数据语料库进行预训练,然后对完整语料库中的高质量、专业数据的子集进行专门化。在多领域设置中,这涉及在每个专门领域上持续预训练多个模型,称为……

全球温室气体图表 - 世界温室气体排放现状及日本面临的挑战

図表でみる世界のGHG-世界における温室効果ガス排出の現状と日本が抱える課題

■概要 放眼世界,全球变暖正在扰乱气候系统,给人们的生活和生态系统带来负面影响。全球变暖的主要原因是温室气体(GHG)的过量排放。 2015年2月,世界签署了防止全球变暖的国际条约《巴黎协定》,并开始采取措施遏制温室气体排放。然而,尽管2020年全球温室气体排放量因冠状病毒大流行(COVID-19)的影响暂时下降,但又恢复了增长趋势。温室气体有四种类型:(1) 二氧化碳 (CO2)、(2) 甲烷 (CH4)、(3) 一氧化二氮 (N2O) 和 (4) 碳氟化合物气体。二氧化碳排放量最大,占总量的四分之三,其次是甲烷,占17.9%。从行业来看,温室气体排放可分为八类:(1)电力行业、(2)工业燃

Goldilocks RL:调整任务难度以逃避推理奖励稀疏

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning

强化学习已成为解锁大型语言模型推理能力的强大范例。然而,依赖稀疏的奖励使得这个过程的样本效率非常低,因为模型必须以最少的反馈来导航巨大的搜索空间。虽然经典课程学习的目的是通过根据复杂性对数据进行排序来缓解这种情况,但特定模型的正确排序通常是不清楚的。为了解决这个问题,我们提出了 Goldilocks,这是一种新颖的教师驱动的数据采样策略,旨在预测学生模型的每个问题的难度。教师模型...