基准关键词检索结果

AI 基准解释:GPQA、SWE-bench、Chatbot Arena 及其实际测量内容

AI Benchmarks Explained: GPQA, SWE-bench, Chatbot Arena and What They Actually Measure

了解 MMLU、GPQA Diamond、SWE-bench、HealthBench 和 Chatbot Arena 实际测量的内容,以及实验室如何计算基准分数。

2026 年第一季度美国经济面临复杂信号,美联储维持基准利率稳定

Federal Reserve Holds Benchmark Rate Steady as U.S. Economy Faces Mixed Signals in Q1 2026

美联储于 3 月 19 日结束了 2026 年 3 月联邦公开市场委员会 (FOMC) 会议,维持联邦基金利率不变......

ProText:测量长文本中(错误)性别的基准数据集

ProText: A Benchmark Dataset for Measuring (Mis)gendering in Long-Form Texts

我们引入了 ProText,这是一个用于测量风格多样的长篇英语文本中的性别和性别错误的数据集。 ProText 跨越三个维度:主题名词(姓名、职业、头衔、亲属称谓)、主题类别(典型男性、典型女性、中性/非性别)和代词类别(男性、女性、中性、无)。该数据集旨在探索文本转换中的(错误)性别,例如使用最先进的大型语言模型进行摘要和重写,超越传统的代词解析基准并超越......

人工智能基准被打破。这就是我们所需要的。

AI benchmarks are broken. Here’s what we need instead.

几十年来,人们一直通过机器是否优于人类的问题来评估人工智能。从国际象棋到高等数学,从编码到论文写作,人工智能模型和应用程序的性能都是根据人类完成任务的性能进行测试的。这个框架很诱人:人工智能与人类对孤立问题的比较具有清晰的……

空军寻求行业反馈,以衡量诺斯罗普导弹的“基准”进展

Air Force seeks industry feedback to ‘benchmark’ progress of Northrop missile

美国空军告诉 Breaking Defense,“如果工业界有可靠的选择来更快、更便宜地运送弹药”,空军可能会考虑生产另一种类似于诺斯罗普·格鲁曼公司的替代攻击武器的导弹。

能源部不考虑放弃迪拜基准

Energy dep’t considering discarding Dubai benchmark

美国能源部 (DoE) 周二表示,将向国会提议放弃迪拜原油基准作为各种政策反应的触发因素,称该基准可能不再充分反映市场现实。能源部副部长亚历山德罗·O·赛尔斯 (Alessandro O. Sales) 在参议院听证会上表示,能源部正在起草一份政策说明 [...]

LMS 和 HR 技术供应商的潜在客户开发基准:您是领先还是落后?

Lead Generation Benchmarks For LMS & HR Tech Vendors: Are You Ahead Or Behind?

在我们发言时,您可能已经制定了潜在客户开发策略。但是,您知道您的方法与直接竞争对手相比如何吗?如果您不寻找能够准确了解行业形象的基准,您将永远不知道自己的表现如何。这篇文章最初发表在电子学习行业。

Kimi K2.5是什么?架构、基准测试和 AI 基础设施指南

What Is Kimi K2.5? Architecture, Benchmarks & AI Infra Guide

将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。

将企业人工智能视为操作层

Treating enterprise AI as an operating layer

企业人工智能存在一条断层线,但它并不是最受关注的断层线。公众对话仍然跟踪基础模型和基准——GPT 与 Gemini、推理分数和边际能力增益。但在实践中,更持久的优势是结构性的:谁拥有应用、管理和改进情报的操作层。……

国际货币基金组织世界经济展望 - 由于中东冲突加剧,展望下调

IMF世界経済見通し-中東紛争激化で見通しを下方修正

4月14日,国际货币基金组织(IMF)发布《世界经济展望》(WEO),主要内容如下。 [世界实际 GDP 增长率(图 1)] - 2026 年预计比上年增长 3.1%,较 2026 年 1 月预测 (3.3%) 向下修正 - 2027 年预计较上年增长 3.2%,与 2026 年 1 月预测 (3.2%) 持平 国际货币基金组织将当前展望描述为“战争阴影下的全球经济”。1 在标题下创建“战争)”。由于假设环境可能发生变化,国际货币基金组织将其最新预测发布为“参考预测”,而不是通常的“基准预测”。参考预测的假设是,中东冲突的持续时间、强度和范围将受到限制,中东冲突的混乱局面将在2026年年中平息

由于投资者押注伊朗战争结束,华尔街创下新高

Wall Street scales fresh record high as investors bet on end of Iran war

标准普尔 500 指数历史上首次突破 7,000 点,抹去了战争开始时造成的严重损失 华尔街周三创下历史新高,投资者对美以对伊朗的战争即将结束的乐观情绪日益高涨。基准标准普尔 500 指数历史上首次突破 7,000 点,全天上涨 0.8%,最终收盘于7,022.95。以科技股为主的纳斯达克指数也上涨 1.6%,至 24,016.02 点,创历史新高,而道琼斯工业平均指数基本持平。继续阅读...

你的 ReAct 代理浪费了 90% 的重试 - 以下是阻止它的方法

Your ReAct Agent Is Wasting 90% of Its Retries — Here’s How to Stop It

大多数 ReAct 风格的代理都默默地将重试预算浪费在永远不会成功的错误上。在 200 个任务的基准测试中,90.8% 的重试都花在了幻觉的工具调用上——不是模型错误,而是架构缺陷。本文展示了为什么即时调整无法解决这个问题,以及完全消除浪费重试的三种结构变化。 文章《你的 ReAct Agent 正在浪费 90% 的重试 — 以下是如何阻止它》首先出现在 Towards Data Science 上。

“最坏情况”:金融专家预测特朗普经济将严重下滑

'Worst-case scenario': Financial experts predict major Trump economic downturn

一位受人尊敬的财经记者表示,唐纳德·特朗普总统的经济目前似乎表现良好,但这种情况可能会迅速发生变化。“仅从表现来看,华尔街对唐纳德·特朗普总统入主白宫感到非常兴奋,”《愚人报》的肖恩·威廉姆斯周日写道。 “在特朗普的第一个非连续任期内,成熟股票驱动的道琼斯工业平均指数 (DJINDICES: ^DJI)、基准标准普尔 500 指数 (SNPINDEX: ^GSPC) 和科技股驱动的纳斯达克综合指数 (NASDAQINDEX: ^IXIC) 分别上涨了 57%、70% 和 142%。”Williams 补充道,“虽然这些主要指数自 1890 年代末以来,大多数总统领导下的指数均有所上升,特朗普领

经济周期指标 – 最终 GDP、GDO、个人收入

Business Cycle Indicators – Final GDP, GDO, Personal Income

从今天发布的数据来看: 图 1:非农就业 (NFP) 就业初步基准修订(淡蓝色)、NFP 就业(粗体蓝色)、平滑人口控制后的平民就业(粗体橙色)、工业生产(红色)、2017 年不包括经常转移的个人收入$(粗体浅绿色)、2017 年制造业和贸易销售$(黑色)以及 2017 年月度 GDP$(粉红色)、GDP(蓝色)条),所有 [...]

教育工作者需要了解的关于双语能力印章要求的一切信息:5 个常见常见问题解答

Everything Educators Need to Know About the Seal of Biliteracy Requirements: 5 Common FAQs

在日益全球化的世界中,使用多种语言已成为一项非常有价值的技能。双语印章已成为美国教育体系中享有盛誉的基准,是对全国青年多语言卓越表现的认可。鉴于其广泛的认可和卓越的性质,教育工作者必须了解其具体要求和途径[…]《教育工作者需要了解的关于双语能力印章要求的一切:5 个常见常见问题解答》一文首先出现在教育工作者室。

由于美国和伊朗同意两周停火,英国利率预测下降

UK interest rate predictions fall as US and Iran agree two-week ceasefire

市场目前预计今年将加息一次,而不是周二的两次,尽管抵押贷款利率可能不会很快下降。商业直播 – 最新动态 在美国和伊朗同意为期两周的停火协议后,城市交易员下调了今年英国加息的预期。货币市场目前完全消化了英国在 12 月之前仅加息一次的情况,这将使英国央行的基准利率回升至 4%。周二,两次加息已被完全消化,唐纳德·特朗普威胁称,除非德黑兰遵守他重新开放霍尔木兹海峡的要求,否则“整个文明将会消亡”。继续阅读...

人工智能就业恐慌遇上 250 年的数据

The AI Jobs Scare Meets 250 Years of Data

为什么经济学家普遍比硅谷的许多人对人工智能的潜在经济影响更加谨慎,尤其是在预测极端情况时?一个重要原因是:他们的基准案例以经济史为基础,在处理一项重要的新创新时,这是一个几乎不合理的起点。人工智能就业恐慌与 250 年数据的结合首先出现在美国企业研究所 (AEI) 上。

各州应考虑劳动力佩尔计划的收入结果

States Should Consider Earnings Outcomes for Workforce Pell Programs

在制定成果基准时,国会打算让资金只流向能够带来明显收益收益的项目。各州可以在申请劳动力佩尔助学金之前评估其劳动力计划的工资结果,从而帮助实现这一愿景。“各州应考虑劳动力佩尔计划的收入结果”一文首先出现在美国企业研究所 - AEI 上。