基准关键词检索结果

新基准显示人工智能代理在自动化实际工作时表现不佳

New Benchmark Shows AI Agents Perform Poorly When Automating Real Jobs

人工智能安全和规模人工智能中心的一篇新论文介绍了远程劳动力指数(RLI),这是第一个旨在衡量人工智能代理执行有偿远程工作能力的基准。

学习技术基准:高绩效公司正在做什么

Learning Tech Benchmarks: What High-Performing Companies Are Doing

教育是所有行业(包括电子学习、学习与发展和人力资源技术)公司的全球增长中心。随着学习技术悄然成为制胜要素,您是否在团队的发展和技能提升上投入了时间和金钱?这篇文章首先发表在电子学习行业上。

全球健康和疟疾与Chandy John博士 COVID-19监视 关于竞争卫生改革方法的公众舆论 Covid&Dexamethasone,厕所羽毛和增加的情况6-23-2020 FDA需要回到基础 COVID-19更新:6月29日版 如何思考怀孕风险 COVID-19更新:6月23日版 公共卫生消息传递,抗议和大流行 COVID-19更新:6月15日版 旧药物,新技巧:remdesivir和其他潜在治疗方法 COVID-19更新:6月9日版 我们站在加拿大毒品进口的地方? Juul和电子烟的口味会改变青少年的健康风险感知吗? 5个州的医疗保健成本增长基准

Global Health and Malaria with Dr. Chandy John

在这一集中,亚伦·卡洛尔(Aaron Carroll)与钱迪·约翰(Chandy John)博士谈论了他作为传染病研究员和儿科医生的经历。约翰博士的研究重点是全球健康,他参与了肯尼亚和乌干达的计划。无论您在哪里获得播客,包括iTunes! Healthcare Triage播客由印第安纳大学(Indiana University)赞助[…] Chandy John博士首次出现在《偶然经济学家》中。

“另一个期望”:根据丰富基准来评判学校

‘Another expectation’: Schools to be judged on enrichment benchmarks

由于超过四分之一的学校去年削减了课外活动经费,领导者要求支持以满足新的期望“另一个期望”:将根据丰富基准进行评判的学校首次出现在学校周上。

打破视频法学硕士基准:知识、空间感知还是真正的时间理解?

Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

本文在 NeurIPS 2025 的 Evaluating the Evolving LLM Lifecycle Workshop 上被接受。现有的视频理解基准通常将基于知识的问题和纯粹基于图像的问题混为一谈,而不是明确隔离模型的时间推理能力,而这是区分视频理解与其他模态的关键方面。我们发现了两个主要限制,这些限制掩盖了较高的分数是否真正表明对视频中的动态内容有更强的理解:(1)强大的语言先验,模型可以在不观看视频的情况下回答问题;和(2)...

我测试了这款功能强大的 Windows 11 笔记本电脑,它为移动游戏树立了新基准

I tested this powerhouse Windows 11 laptop, and it sets a new benchmark for mobile gaming

第 10 代 Lenovo Legion Pro 7i 是一款完整的游戏笔记本电脑,配有绚丽的 16 英寸 240Hz OLED 显示屏。

泽连斯基准备了在武器问题上赢得特朗普的承诺清单

Zelenskyy Readies List of Promises to Win Over Trump on Weapons

弗拉基米尔·泽连斯基将于周五在白宫会见美国领导人,讨论防空、远程武器和紧急能源援助等问题,因为莫斯科在冬季前加强了对其水和天然气基础设施的打击

肯尼亚全面的加密货币监管树立了全球基准

Kenya’s Comprehensive Crypto Regulation Sets Global Benchmark

请注意,我们无权提供任何投资建议。本页面内容仅供参考。肯尼亚在加密货币监管方面迈出了重要一步,成为非洲首批实施管理数字资产使用、交换和交易的综合法规的国家之一。……继续阅读肯尼亚的综合加密货币监管设定了全球基准肯尼亚的综合加密货币监管设定了全球基准这篇文章首先出现在《经济观察》上。

新型金动力催化剂打破了绿色化学十年历史的基准

New Gold-Powered Catalyst Smashes Decade-Old Benchmark in Green Chemistry

一种新型金钙钛矿催化剂在较低温度下从生物乙醇中实现了创纪录的高乙醛产率。乙醛作为化学结构单元发挥着重要作用,通常通过基于乙烯的瓦克氧化工艺生产。然而,这种传统方法既昂贵又破坏环境。研究人员长期以来一直在寻找更清洁、更可持续的替代方案,例如[...]

EncQA:图表视觉编码的视觉语言模型基准测试

EncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts

多模态视觉语言模型 (VLM) 在图表理解基准上的得分不断提高。然而,我们发现这一进展并没有完全体现解释图表所必需的视觉推理能力的广度。我们引入了 EncQA,这是一种基于可视化文献的新颖基准,旨在提供对图表理解至关重要的视觉编码和分析任务的系统覆盖。 EncQA 提供 2,076 个合成问答对,实现六个视觉编码通道的均衡覆盖(位置、长度、面积、颜色……

我们在 100 万行上对 DuckDB、SQLite 和 Pandas 进行了基准测试:以下是发生的情况

We Benchmarked DuckDB, SQLite, and Pandas on 1M Rows: Here’s What Happened

查看 DuckDB、SQLite 和 Pandas 在百万行数据集上的速度和内存效率比较结果。

分析法学硕士知识和推理基准中的辩证偏差

Analyzing Dialectical Biases in LLMs for Knowledge and Reasoning Benchmarks

大型语言模型 (LLM) 在现代自然语言处理中无处不在。然而,之前的研究表明,代表性不足的英语方言的法学硕士成绩有所下降。我们分析了将“标准”美式英语问题典型化为非“标准”方言变体对多项选择题回答任务的影响,发现准确率降低了 20%。此外,我们还调查了非“标准”英语问题中表现不佳的语法基础。我们发现各个语法规则对性能有不同的影响,但有些更……

我们使用自己的平台来构建、迭代和启动可投入生产的机器人解决方案 |维亚姆

We used our own platform to build, iterate, and launch a production-ready robotic solution | Viam

在 Viam 上构建机器人打磨解决方案消除了传统硬件集成的复杂性,使我们能够交换组件并进行基准测试,而无需重写应用程序代码。

使用 ADP 数据即时预测私人 NFP

Nowcasting Private NFP using ADP Data

使用 2022 年 1 月至 2008 年 25 月隐含初步基准私人就业数据,对一阶对数差异进行回归,得出单位系数,调整后的 R2 为 0.56,SER = 0.00087。生成的即时预报如下所示。图 1:隐含的初步基准修订私人非农就业人数(粗黑线),使用 ADP 系列的即时预测(浅蓝线)和 +/- [...]

非法财务:机构可以更好地评估反对犯罪活动的进展

Illicit Finance: Agencies Could Better Assess Progress in Countering Criminal Activity

GAO发现的联邦机构负责调查参与非法财务活动的实体并参考联邦起诉的实体。例如,联邦调查局调查了跨国犯罪组织和相关的洗钱工作。同样,移民和海关执法部门的国土安全调查也对犯罪组织进行了有关人,商品和金钱的跨境运动的调查。这些联邦执法机构和其他人经常在诸如工作队之类的机构间协作团体中共同努力,以协调对跨国有组织犯罪,洗钱和主要毒品贩运网络的调查。司法部起诉被指控犯有联邦犯罪的被告,包括与非法财务有关的罪行。联邦机构正在采取行动来实施选定的政府范围内的战略和努力来抵制非法财务活动,但在某些情况下并未衡量实施进展。在这些情况下,策略和努力并非都有明确定义的目标,而牵头机构或实体不会定期收集和评估与目标相

空客 A380:激励未来飞行员的航空巨头

Airbus A380: The Aviation Giant Inspiring the Aviators of Tomorrow

当我们谈论航空史上最具标志性的飞机时,一个名字不可避免地脱颖而出:空中客车 A380。作为世界上最大的客机,空客 A380 不仅仅是尺寸和豪华的象征;它是航空工程和创新的基准。研究空客 A380 不仅仅是为了欣赏它的宏伟,更是为了欣赏它的宏伟。 ... 阅读更多

庞巴迪环球 8000,世界上速度最快、航程最远的四区公务机,现已以最低客舱高度树立新标杆

Bombardier Global 8000, The World’s Fastest and Longest-Range Four-Zone Business Jet, Now Sets a New Benchmark with the Lowest Cabin Altitude

庞巴迪今天宣布,全球速度最快的公务机 Global 8000(1) 是世界上速度最快的公务机,最高时速可达 0.95 马赫,同类产品中航程最远可达 8,000 海里,...后庞巴迪 Global 8000 是世界上速度最快、航程最远的四区公务机,现在以最低客舱高度树立了新基准。航空晨报。

印度的人工智能季风预测“激发投资”

India’s AI monsoon predictions ‘inspire investment’

继印度人工智能模型取得成功后,盖茨基金会投资非洲天气预报基准测试。