详细内容或原文请订阅后点击阅览
一家中国公司刚刚推出了不断变化的AI基准
测试AI模型时,很难确定它是推理还是仅仅从培训数据中反省答案。 Xbench是由中国风险投资公司HSG或Hongshan Capital Group开发的新基准,可能有助于避开该问题。这要归功于它不仅在…
来源:MIT Technology Review _人工智能在汉山(Hongshan)的基准开发始于2022年,在Chatgpt的突破性成功之后,作为评估哪种模型值得投资的内部工具。从那时起,由合作伙伴Gong Yuan领导,该团队稳步扩展了该系统,带来了外部研究人员和专业人士的帮助。随着项目的增长,他们决定将其发布给公众。
Xbench通过两个不同的系统解决了问题。一种类似于传统的基准测试:一种学术考验,它衡量了模型对各种主题的才能。另一个更像是一项工作的技术访谈,评估了模型可能提供的实际经济价值。
Xbench评估原始智能的方法当前包括两个组件:XBENCH-SCIERCEQA和XBENCH-DEEPEREARCH。 ScienceQA并不是与GPQA和SuperGPQA等现有研究生级的基准测试的根本性。它包括跨越从生物化学到轨道力学的领域的问题,该领域由研究生起草,并由教授进行了双重检查。得分不仅奖励正确的答案,而且还会导致推理链。
GPQA supergpqaDeepResearch着重于模型浏览中文网络的能力。十个主题专家在音乐,历史,金融和文学中创造了100个问题,这些问题不能只是被谷歌搜索,但需要大量的研究来回答。得分有利于来源的广度,事实一致性以及模型在没有足够的数据时愿意接纳的意愿。公开收藏中的一个问题是“西北省三个省有多少个中国城市与外国接壤?” (如果您想知道的话,只有12个,只有33%的模型正确。)
团队已承诺每季度一次更新测试问题,并维护半公共的半私人数据集。