详细内容或原文请订阅后点击阅览
人工智能基准被打破。这就是我们所需要的。
几十年来,人们一直通过机器是否优于人类的问题来评估人工智能。从国际象棋到高等数学,从编码到论文写作,人工智能模型和应用程序的性能都是根据人类完成任务的性能进行测试的。这个框架很诱人:人工智能与人类对孤立问题的比较具有清晰的……
来源:MIT Technology Review _人工智能在出现并开始应用这种方法的组织中,第一步是改变分析单位。
例如,在 2021 年至 2024 年期间的英国一家医院系统中,问题从医疗人工智能应用是否提高了诊断准确性扩展到医院多学科团队中人工智能的存在不仅影响准确性,而且影响协调和审议。医院专门评估了使用和不使用人工智能的人类团队的协调和审议。多个利益相关者(医院内外)决定了一些指标,例如人工智能如何影响集体推理、是否会暴露被忽视的考虑因素、是否会加强或削弱协调、以及是否会改变既定的风险和合规实践。
这种转变是根本性的。在高风险环境中,它非常重要,因为系统级效果比任务级准确性更重要。这对经济也很重要。它可能有助于重新调整对生产力全面提高的过高预期,而迄今为止,这种预期很大程度上取决于提高个人任务绩效的承诺。
一旦奠定了基础,HAIC 基准测试就可以开始考虑时间因素。
今天的基准类似于学校考试——一次性、标准化的准确性测试。但真正的专业能力的评估方式有所不同。初级医生和律师在真实的工作流程中、在监督下、通过反馈循环和问责结构不断接受评估。绩效是根据时间和特定环境来判断的,因为能力是相关的。如果人工智能系统旨在与专业人员一起运行,则应纵向判断其影响,反映性能如何在重复交互中展现。
