每个AI模型都在浮动医学 - Lmarena提出了解决方案

基准装备与特定于医学研究的排行榜BioMedarena合作。

来源:ZDNet | 机器人新闻
Johan63/Istock/Getty Images Plus通过Getty Images

ZDNET的钥匙外卖

    AI Frontier模型无法在医疗主题上提供安全,准确的输出。LMARENA和DATATECNICA的目标是“严格”测试LLMS的医学知识。尚不清楚如何测量特工和医学特定的LLM。
  • AI边境模型无法在医疗主题上提供安全准确的输出。
  • LMARENA和DATATECNICA的目标是“严格”测试LLMS的医学知识。
  • 尚不清楚如何测量药物和药物特异性LLM。
  • 获得更多深入的ZDNET技术覆盖范围:将我们添加为Chrome和Chromium浏览器上的首选Google源。

    获得更多深入的ZDNET技术覆盖范围: 将我们添加为首选的Google源 在铬和铬浏览器上。

    尽管在与医学主题打交道时,所有生成的AI计划都在整个学术文献中引用了大量的医学进展,但所有生成的AI计划都无法产生安全,准确的产出,这是美国国立卫生研究院美国国立卫生研究院阿尔茨海默氏症中心和阿尔茨海默氏症中心及相关的痴呆症研究所的新兴新闻。

    新报告 DatateCnica

    这一发现尤其令人担忧,因为人们将去诸如Chatgpt的机器人以寻求医疗答案,研究表明,即使在错误的情况下,人们也相信AI的医疗建议对医生的建议。

    研究表明

    另外:患者信任AI对医生的医疗建议 - 即使是错误的,研究也发现

    也: 患者信任AI对医生的医疗建议 - 即使是错误的,研究也会发现

    这项新研究将OpenAI的GPT-5与Google的众多模型,拟人化和元基准的众多模型进行了比较,CardbiomedBench在医学科学的基准上发现,“在现实世界中生物医学研究中的表现仍然远远不够。”

    cardbiomedbench

    CardbiomedBench基准套件是一种评估生物医学研究中LLM的问答基准,今年早些时候在DatateCnica与卡研究人员之间的合作中揭幕。

    lmarena.ai