Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining
构建网络规模的 LLM 预训练数据集的首要预处理步骤之一涉及从 HTML 中提取文本。尽管网络内容多种多样,但现有的开源数据集主要对所有网页应用单个固定提取器。在这项工作中,我们调查这种做法是否会导致互联网数据的覆盖和利用不理想。我们首先表明,虽然不同的提取器可能会在标准语言理解任务上产生相似的模型性能,但在固定过滤管道中幸存的页面可能会有很大差异。这表明一个简单的...
The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics
思想链 (CoT) 提示是一种事实上的标准技术,可从大型语言模型 (LLM) 中引出类似推理的响应,使他们能够在给出最终答案之前阐明各个步骤。虽然与类人推理的相似性是不可否认的,但支撑 CoT 推理成功的驱动力仍然很大程度上不清楚。在这项工作中,我们对源自竞赛级数学问题的 CoT 痕迹进行了深入分析,目的是更好地理解 CoT 如何以及哪些部分实际上对最终答案做出了贡献。为此……
Closing the Gap Between Text and Speech Understanding in LLMs
大型语言模型 (LLM) 可以进行调整,将其文本功能扩展到语音输入。然而,这些适应语音的法学硕士在语言理解任务上始终表现不佳,甚至低于基于文本的法学硕士,甚至级联管道。我们将这种缺陷称为文本-语音理解差距:相对于基于原始文本的 LLM 处理等效文本,当适应语音的 LLM 处理语音输入时观察到的性能下降。最近缩小这一差距的方法要么依赖文本语料库的大规模语音合成,但成本高昂且严重依赖……
AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding
最近的多模态大语言模型 (MLLM),例如 GPT-4o 和 Qwen3-Omni,表现出很强的感知能力,但在多说话者、以对话为中心的环境中表现不佳,这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心,其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入 AMUSE,这是一个围绕本质上代理的任务设计的基准,需要模型分解复杂的......
West Losing Its ‘Eyes and Ears’ in Russia with Consulate Closures
摘要:自2014年俄罗斯非法占领乌克兰克里米亚并于2022年对乌克兰发动全面入侵以来,西方国家已关闭了近两打俄罗斯领事馆。这些关闭是为了抗议战争和与外交官身份不相容的行为——这是间谍和颠覆活动的委婉说法。作为回应,莫斯科[…]由于领事馆关闭,西方在俄罗斯失去“眼睛和耳朵”的帖子首先出现在詹姆斯敦。
Personnel Vetting: Leadership Attention Needed to Prioritize System Development and Achieve Reforms
GAO 的发现自 2016 年以来,国防部 (DOD) 一直在开发国家背景调查服务 (NBIS),这是一个 IT 系统,用于为大多数联邦机构和与政府合作的 13,000 多个行业组织进行背景调查。国防部原本预计 NBIS 将于 2019 年完成,但一再拖延阻碍了部署。 GAO 还发现之前的 NBIS 成本估算和时间表不可靠。在错过多个目标后,国防部国防反情报与安全局 (DCSA) 于 2024 年暂停了 NBIS 开发,以修改其方法。 2025 年,它制定了新的成本估算,并改变了调度方法。GAO 审查了 DCSA 2025 年 NBIS 成本估算,发现它是可靠的,因为它至少基本上满足了可靠成本
From Tariffs to Gold: Reading the Regime
债务、关税和印钞:马克·桑顿 (Mark Thornton) 解释了政策机器如何重新调整市场,以及为什么金属和大宗商品首先做出反应。
乌克兰大使瓦列里·扎卢日尼 (Valerii Zaluzhnyi) 表示,未来的战争需要“技术联盟,而不是条约条款” 新闻稿thilton.drupal23 二月 2026乌克兰驻英国大使谈到了俄罗斯全面入侵以来四年来战争的演变,以及未来战争的“机器人化”。乌克兰驻英国大使在查塔姆研究所表示,未来的冲突将通过“自主和自主的方式来应对”半自主机器人系统”。 2月23日星期一,乌克兰驻英国大使、乌克兰武装部队总司令瓦列里·扎卢日尼在伦敦国际事务智库发表演讲,阐述了他对战场战争转变的见解,同时纪念俄罗斯对乌克兰发动全面入侵四周年。扎卢日尼表示,技术进步将改变战争的未来,他指出,现代冲突已经超越了常规
転換期を迎える米金融政策-見通しが割れる中で高まる政策不確実性
■摘要 2025年12月FOMC会议显示的点阵图显示,政策利率前景分为希望维持利率不变和希望多次降息的两派,美联储内部尚未形成共识。货币政策存在高度不确定性,与市场消化的降息前景存在差异。2026年1月的FOMC会议上,政策利率四次会议首次维持不变,符合市场预期。 12月会议确认政策利率已进入中性区间,声明中增加了“幅度和时机”,表明政策暂时保持不变,因此保持政策不变是标准政策。尽管通胀率高于目标,但主要原因是关税导致核心商品价格上涨。另一方面,核心服务价格继续趋于通货紧缩趋势,不包括住房成本和住房成本,这些成本与工资高度挂钩。如果不推出新的关税,通胀率很可能通过关税影响的减少而向价格目标下降
■概要 过去30年,虽然劳动生产率(每小时)有所提高,但实际工资(每小时)却停滞不前。许多人指出,这背后的原因是工资支付与生产力不相称。实际工资(每小时)= 劳动生产率(每小时)x 劳动份额x 贸易条件。实际工资和劳动生产率之间的差异可以通过劳动份额和贸易条件的变化来解释,但如果对每个变量采用不同的统计,则存在由于定义和创建方法的差异而无法保证一致性的问题。在本文中,我们将所有变量统一纳入GDP统计中,并分析了实际工资(每小时)的因素。结果显示,劳动生产率与实际工资之间的差距并不像一般所说的那么大,大部分是由于贸易条件恶化造成的,而劳动份额下降的影响较小。此外,过去30年人均实际工资根本没有增
Wilsbach outlines strategy for confronting adversaries, Air Force success
肯·威尔斯巴赫上将在担任空军参谋长后的首次重要讲话中强调了空军的准备情况以及空军如何应对复杂而模糊的战略环境。
我们很高兴地宣布,Anthropic 的 Claude Opus 4.6、Claude Sonnet 4.6、Claude Opus 4.5、Claude Sonnet 4.5 和 Claude Haiku 4.5 通过 Amazon Bedrock 全球跨区域推理向中东运营的客户推出。在这篇文章中,我们将引导您了解每个 Anthropic Claude 模型变体的功能、全局跨区域推理的主要优势(包括提高的弹性)、您可以实现的实际用例,以及帮助您立即开始构建生成式 AI 应用程序的代码示例。
Securing Rare Earth Elements a National Security Imperative, Official Says
在参议院军事委员会听证会上作证的负责工业基础政策的助理战争部长迈克尔·P·卡德纳齐 (Michael P. Cadenazzi Jr.) 表示,确保关键矿产的弹性供应链对国家安全和经济至关重要。
Justified Accord 2026 Begins in Kenya, Tanzania
《合理协议 2026》是美国非洲司令部在东非最大规模的年度多国演习,旨在通过合作伙伴主导的安全行动来应对共同的反恐威胁,从而加强合作并促进地区安全。
在北极圈上方,冬季占据着地貌。雪覆盖了山脉,零度以下的风席卷了冰冻的山谷。对于大多数人来说,这个地形可能会让人感觉偏远且荒凉。然而,对于美国海军陆战队以及北约盟国和合作伙伴来说,这是一个试验场。在北极,环境可能与任何对手一样致命。这一现实使得联合准备、训练以及快速调动设备和人员应对危机的能力不再是可有可无的,而是在发生武装冲突时对于行动成功至关重要。
US Air Force awards contract for drone wingman engines
霍尼韦尔旨在调整其现有 SkyShot 1600 发动机的设计,以适应空军协作战斗机计划中的无人机。
Control Planes for Autonomous AI: Why Governance Has to Move Inside the System
在过去十年的大部分时间里,人工智能治理在其本应监管的系统之外舒适地生活着。政策已制定。进行了审查。模型获得批准。审计是在事后进行的。只要人工智能表现得像一种工具——按需生成预测或建议——这种分离就基本上有效。这个假设正在被打破。作为人工智能 [...]