实体链接 (EL) 传统上依赖于大型注释数据集和广泛的模型微调。虽然最近的小样本方法通过提示来利用大型语言模型 (LLM) 来减少训练要求,但由于昂贵的基于 LLM 的推理,它们常常效率低下。 ARTER(自适应路由和目标实体推理)提出了一种结构化管道,通过策略性地结合候选生成、基于上下文的评分、自适应路由和选择性推理,无需深度微调即可实现高性能。 ARTER 计算一小组...
Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection
幻觉对语言模型的可靠性和广泛采用构成了重大障碍,但其准确测量仍然是一个持续的挑战。尽管已经提出了许多特定于任务和领域的指标来评估忠实性和事实性问题,但这些指标的稳健性和泛化性仍未经过测试。在本文中,我们对 4 个数据集、来自 5 个家族的 37 个语言模型和 5 种解码方法的 6 组不同的幻觉检测指标进行了大规模的实证评估。我们的广泛调查揭示了……方面的差距
ODKE+: Ontology-Guided Open-Domain Knowledge Extraction with LLMs
知识图 (KG) 是许多人工智能应用的基础,但保持其新鲜度和完整性仍然成本高昂。我们推出 ODKE+,这是一个生产级系统,可以自动从网络资源中高精度地提取和摄取数百万个开放域事实。 ODKE+ 将模块化组件组合成可扩展的管道:(1) 提取启动器检测丢失或过时的事实,(2) 证据检索器收集支持文档,(3) 混合知识提取器对大型语言模型 (LLM) 应用基于模式的规则和本体引导提示,(4) ...
Hyper Группы «РОСНАНО» нарастил отпуск электроэнергии
基础设施使用效率的提高使得 Hyper 在关键指标上表现出比市场更快的增长率。
Job Quality Newsletter – Manufacturing Day
在本期就业质量时事通讯中,我们揭示了为什么制造业工作通常被认为是理想的,但却无法始终如一地兑现这一承诺,重点介绍了表明加强企业的努力如何能够提高其提供的就业质量的研究,并考虑如何利用政府购买力在整个行业制定更高的就业标准。职位质量通讯 - 制造日首先出现在阿斯彭研究所。
Durable Skills, Strong Starts: What Employers Really Want from Early- Career Talent
本作品是该系列的第一篇。我们将在未来几个月发布更多简报,深入探讨调查结果。《持久技能,强劲起步:雇主真正希望从早期职业人才中得到什么》一文首先出现在阿斯彭研究所。
Lessons From Expert Roundtables on Implementing Trump Accounts
随着领导人努力实施特朗普账户,阿斯彭 FSP 召开了一系列圆桌会议,讨论如何让这些账户为最受益的人服务。 《关于实施特朗普账户的专家圆桌会议的经验教训》一文首先出现在阿斯彭研究所。
Comments to the Office of Science and Technology Policy on AI regulatory reform
以下公众意见信的版本已于 2025 年 10 月 27 日提交给白宫科技政策办公室。向科技政策办公室就人工智能监管改革发表评论的帖子首先出现在 Reason Foundation 上。
Aid in an age of security: What should the UK’s global priorities be?
安全时代的援助:英国的全球优先事项应该是什么? 2025 年 11 月 17 日 — 下午 1:00 至下午 2:00 匿名(未经验证)2025 年 10 月 26 日查塔姆研究所和在线 该小组将审查全球援助这一历史性转变的安全和地缘政治利害关系。一个专家小组将审查全球援助这一历史性转变的安全和地缘政治利害关系。全球援助体系面临的压力比几十年来更大。预计 2023 年至 2026 年间,17 个最大援助国的支出将减少超过 1000 亿英镑。法国、英国和德国的支出大幅减少,其中最引人注目的是美国 2025 年决定关闭美国国际开发署,取消了 2025 年超过 80% 的援助合同。与此同时,美国对人