基准关键词检索结果

全球水文模型的第一个基准测试系统

First Benchmarking System of Global Hydrological Models

最终提出了针对地球系统模型评估所必需的全球水文模型的基准测试框架。

基准标准表格增强学习算法

Benchmarking Tabular Reinforcement Learning Algorithms

比较了萨顿(Sutton)关于Gridworld环境的第一部分中的所有方法,首先出现在数据科学的基准测试后标准的表格增强学习算法。

AI基准测试中的政党指责LM竞技场偏爱技术巨头

Partiskhet i AI-benchmarking – studie anklagar LM Arena för att gynna teknikjättar

最近发表的研究排行榜幻觉(https://arxiv.org/pdf/2504.20879),已引起人们对LM Arena偏见的严重问题的关注点,该平台用于比较和排名不同的AI模型。该研究是Cohere Labs,Stanford,MIT和其他几个机构的研究人员之间的合作。结果引发了有关AI开发中透明和正义的问题。 AI基准研究中的帖子偏见指责LM竞技场首次出现在AI新闻中。

Dentons + Bird&Bird加入瑞士Genai基准测试项目

Dentons + Bird & Bird Join Swiss GenAI Benchmarking Project

Dentons和Bird&Bird正在加入包括苏黎世大学在内的一群瑞士和其他欧洲组织,以建造Juriaiindex,这是一个新的...

如何使用Ollama和Openai的Simple-evals在GPQA上基准deepSeek-r1蒸馏型

How to Benchmark DeepSeek-R1 Distilled Models on GPQA Using Ollama and OpenAI’s simple-evals

在DeepSeek-R1的蒸馏型模型上设置并运行GPQA-DIAMOND基准,以评估其推理能力。该帖子如何使用Ollama和OpenAI的Simple-Evals在GPQA上对GPQA进行基准deepSeek-R1蒸馏型,这首先出现在数据科学方面。

新的QPU基准将显示量子计算机何时超过现有计算功能,科学家说

New QPU benchmark will show when quantum computers surpass existing computing capabilities, scientists say

在五个不同供应商的芯片上执行的新基准测试表明,随着量子计算机变得更高级和有用,我们如何测量QPU性能。

国际机场东南亚2025设置出席基准

inter airport Southeast Asia 2025 sets attendance benchmark

2025年3月25日至27日在新加坡举行了第八版(IASEA)的第八版。

幽灵粒子变得更轻:katrin为中微子质量设定了一个新的基准

Ghost Particles Just Got Lighter: KATRIN Sets a New Benchmark for Neutrino Mass

中微子是一种与任何事物相互作用的神秘且几乎无质量的颗粒,正在通过Katrin实验揭示新的秘密。 Katrin使用tri衰变和高级光谱法对中微子质量的上微子削减了上限,将我们对基本物理学的理解推向了新的领域。有250天的数据已经分析,并且还有更多的数据,[...]

主题基准语句的秘密生活

The secret lives of Subject Benchmark Statements

高等教育提供者目前正在承受前所未有的压力程度,这不仅是在当前财务环境所施加的限制方面,而且在学生,政策制定者和公众对它们的期望增加中。同时,他们不得不应对新技术和工作场所实践所带来的挑战,环境[…]主题基准陈述的秘密生活首先出现在HEPI上。

替代商业周期指标:复合指数,VMT,早期基准NFP

Alternative Business Cycle Indicators: Coincident Index, VMT, Early Benchmark NFP

重合指数增长从2月的4.1%m/m AR减少到1.7%。图1:隐含非耕作工资早期基准(NFP)(大胆的蓝色),平民就业调整了平滑的人口控制(大胆的橙色),制造业生产(红色),个人收入(不包括Ch.2017 $(BOLD GREEN)的当前转移的个人收入(真实零售销售),真实的零售销售(黑色),车辆Miles Travel(TAN)和CONCINTE INDEX INDEX INDEX INDEX IN INDEX IN INDEX IN CH.2017 $ []

Ecube设定了新的基准测试终止飞机回收

ecube sets new benchmark for end-of-life aircraft recycling

飞机存储,拆卸和过渡服务提供商Ecube已为回收寿命终止飞机设定了可重复的过程。邮政Ecube设定了新的基准测试终止飞机回收的新基准,首先出现在航空业务新闻上。

toolsandbox:LLM工具使用功能的状态,对话,交互式评估基准

ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities

最近的大型语言模型(LLMS)的进步引发了人们对工具协助LLMS解决现实世界挑战的越来越多的研究兴趣,该挑战要求对工具使用功能进行全面评估。虽然先前的作品重点是根据单个转弯用户提示进行评估对无状态的Web服务(RESTFUL API),或者是基于单个转弯的对话框轨迹,但ToolsAndbox包括已实行的工具执行,工具之间的隐式状态依赖关系,工具之间的内置用户模拟器,支持机上的对话评估和用于Intermediped和entermediped和最终的动态评估策略的内置用户模拟器

中国保持基准贷款利率稳定,如预期的

China holds benchmark lending rates steady as expected

中国连续五个月保持了基准贷款率,与市场期望保持一致。尽管中央银行今年将货币政策转移到了“适当放松”的货币政策,但贷方经济复苏和范围缩小利润率的迹象却减少了进一步的缓解措施。

当前的政策基准:可以免费减税的预算技巧

Current Policy Baseline: The Budget Trick That Could Make Tax Cuts Look Free

一个动作如此奇怪,以至于最好用跑车和动漫流媒体来解释它。

狼队Kluwer推出法律费用基准制定工具

Wolters Kluwer Launches Legal Fee Benchmarking Tool

沃尔特斯·克鲁维尔(Kluwer)推出了一种新工具,以帮助卖方(律师事务所)和买家(Inhouse Legal Teams)弄清楚应花费哪些法律工作。 ...

使用Flotorch的Amazon Nova和GPT-4O模型进行基准测试

Benchmarking Amazon Nova and GPT-4o models with FloTorch

Flotorch最近进行的评估将亚马逊Nova车型的性能与OpenAI的GPT-4O进行了比较。在这篇文章中,我们更详细地讨论了此基准测试的发现。

这些新的AI基准可能有助于使模型降低偏见

These new AI benchmarks could help make models less biased

新的AI基准可以帮助开发人员减少AI模型中的偏见,从而使其更公平,造成伤害的可能性更低。这项研究来自斯坦福大学的一支团队,于2月初发布到Arxiv预印术服务器上。研究人员在见证了……

AI研究人员越来越多地使用Super Mario Bros进行基准测试

AI-forskare använder Super Mario Bros i allt större utsträckning för benchmarking

最近注意到,加州大学圣地亚哥大学的Hao AI实验室的研究人员在AI研究中的一项令人着迷的发展,在经典视频游戏Super Mario Bros的帮助下进行了突破性的人工智能测试。这种创新的方法代表了开发更复杂的AI基准测试方法的重要一步。该研究项目使用了[…] AI研究人员使用Super Mario Bros的越来越多的范围首次出现在AI新闻中。