基准研究关键词检索结果

vals发布了首次法律AI基准研究的结果

Vals Publishes Results of First Legal AI Benchmark Study

Vals AI已发表了首次研究,该公司对几家法律科技公司如何回应了一系列...

AI基准测试中的政党指责LM竞技场偏爱技术巨头

Partiskhet i AI-benchmarking – studie anklagar LM Arena för att gynna teknikjättar

最近发表的研究排行榜幻觉(https://arxiv.org/pdf/2504.20879),已引起人们对LM Arena偏见的严重问题的关注点,该平台用于比较和排名不同的AI模型。该研究是Cohere Labs,Stanford,MIT和其他几个机构的研究人员之间的合作。结果引发了有关AI开发中透明和正义的问题。 AI基准研究中的帖子偏见指责LM竞技场首次出现在AI新闻中。

我们对金钱和幸福的认识

What We’ve Learned About Money and Happiness

理查德·伊斯特林 (Richard Easterlin) 最近去世,这让我们回想起他 1974 年关于金钱和幸福的基准研究以及大量回应。文章《我们对金钱和幸福的了解》首先出现在 Econlife 上。

外交服务晋升:国家应改进文件并考虑扩大遴选委员会的人口代表性

Foreign Service Promotions: State Should Improve Documentation and Consider Expanding Demographic Representation on Selection Boards

美国政府问责署的发现 2020 年,美国国务院发起了一项计划,旨在改变外交官晋升程序,使其更加公平、包容和有效。美国国务院委托进行了一项 2021 年基准研究,该研究确定了四种主要做法,以帮助指导其改革,但并未记录对其实用性的评估。美国国务院做出了一些改变,例如为晋升小组(称为遴选委员会)引入了评分标准,以对候选人进行评分和提供反馈。美国政府问责署发现,这一变化和另一项变化反映了研究中确定的四种主要做法中的三种。美国国务院对联邦内部控制标准中所述的领先做法实用性的书面评估可以提高员工对晋升过程的信心,并为所做改变的理由提供透明度。美国国务院通常遵循但未完全记录其对遴选委员会组成的七项广泛要求。