生成式人工智能让人工智能成为创意艺术、数据分析、客户服务和工程等领域的焦点。然而,这种快速崛起也让人工智能领域一个长期存在的问题凸显出来:人工智能“好”意味着什么?传统上,机器学习模型的性能仅通过狭隘的测试和验证分数来评估。然而,人们对具有创造力和幻觉的生成式人工智能的新关注,迫使我们重新考虑准确性的真正含义,或者准确性在这个新世界中是否重要。简单的准确性衡量标准对我们来说已不再足够好
摘要。生成图像重建算法(例如调节条件扩散模型)在医学成像领域越来越流行。这些功能强大的模型可以将低信号比率(SNR)输入转换为具有高SNR的出现的输出。但是,输出可以具有一种称为幻觉的新类型错误。在医学成像中,这些幻觉对于放射科医生来说可能并不明显,但可能会导致诊断错误。通常,幻觉是指由机器学习模型引起的对象结构的估计错误,但是没有广泛接受的方法来评估幻觉幅度。在这项工作中,我们提出了一个新的图像质量指标,称为幻觉指数。我们的方法是计算从重建图像的分布到零幻觉参考分布的距离。为了评估我们的方法,我们对电子显微镜图像,模拟噪声测量和应用基于扩散的重现进行了数值实验。我们重复采样了测量和生成重建,以计算样品平均值和协方差。对于零幻觉参考,我们使用了应用于地面真理的正向扩散过程。我们的结果表明,较高的测量SNR导致相同的明显图像质量的幻觉指数降低。我们还评估了早期停止在反向扩散过程中的影响,并发现更适度的降解强度可以减少幻觉。我们认为,该指标对于评估生成图像重建或作为警告标签可能很有用,可以将医学图像中幻觉的程度告知放射科医生。
认知神经工程博士职位开放,研究使用脑电图解码和脑刺激的机器人诱发幻觉的注意力和社会机制。认知神经科学实验室 (Olaf Blanke:https://www.epfl.ch/labs/lnco/) 开放一个新的博士职位,研究健康参与者和帕金森病患者实验诱发幻觉的注意力和社会大脑机制。该项目将结合机器人技术和虚拟现实 (VR) 与非侵入性脑刺激以及高密度脑电图/脑磁图记录的使用,以揭示注意力和社会大脑机制对幻觉的影响。该项目是瑞士西部一项重大研究项目的一部分,该项目研究健康个体和帕金森病患者的意识状态改变(幻觉)和相关认知功能的大脑机制。项目描述:幻觉是意识神经科学的重要现象,也是帕金森病等主要精神和神经疾病的常见症状(Ffytche 等人,《Nature Reviews Neurology》,2017 年)。尽管幻觉的患病率很高且具有临床相关性,但人们对其神经机制知之甚少,而且幻觉研究因其不可预测和私密性而受到阻碍,使其调查、量化和评估极具挑战性(即 Bernasconi 等人,《Nature Protocols》,2022 年)。该博士项目基于我们最近开发的方法,该方法融合了机器人和虚拟现实 (VR) 技术,以诱导实验控制的特定幻觉状态(Blanke 等人,《Current Biology》,2014 年;Bernasconi 等人,《Science Translational Medicine》,2021 年),并使用新的隐式 VR 行为标记来量化幻觉(Albert 等人,《Nature Communications》,2024 年)。临床证据表明,帕金森病患者的幻觉可能与注意力波动有关(例如 Shine 等人,帕金森病,2015 年),而注意力波动可能与清醒状态下的睡眠样侵入(慢波)有关(Arnulf 等人,神经病学,2000 年),并且与更快的认知能力下降有关(Bernasconi 等人,自然心理健康,2023 年)。当前的项目计划以这些最新方法和发现为基础,有三个主要目标。首先,将机器人技术和 VR 与高密度 EEG/MEG 相结合,以研究清醒状态下睡眠样侵入引起的注意力波动是否会调节机器人引起的特定幻觉(存在性幻觉)和相关的主观精神状态(在健康参与者和帕金森病患者中)。第二,将EEG/MEG-VR机器人系统与基于MRI的非侵入性脑刺激(时间干扰电刺激;例如Wessel等人,Nature Neuroscience,2023)相结合,以特定的振荡频率应用,进一步调节机器人引起的存在幻觉。第三,使用机器学习来预测幻觉状态,该机器学习应用于行为和神经数据。要求:理想的候选人应拥有工程、计算机科学、神经科学或神经技术、医学或生物学硕士学位(或同等学历),对认知系统神经科学和神经成像/信号分析有浓厚兴趣。之前在应用机器学习和非侵入性脑刺激方面的工作是一个加分项。工作环境:
自然语言处理(NLP)用于大语言模型(LLM)的抽象应用继续随着域生成AI(Genai)的技术进步而继续发展。数据的巨大爆炸,可扩展的计算能力和机器学习创新的可用性,LLM,都导致生成AI(Genai)变得越来越流行。基本模型LLM涉及的主要挑战是它们幻觉的趋势。LLMS中的幻觉是指不一致的不一致的输出,有时是不正确的信息或响应。这是因为大多数LLM经过大量通用数据训练,并且必须使用特定于域和外部数据来增强用于Genai任务,例如聊天机器人,问答,摘要和文本生成。为了应对幻觉的挑战,本研究将以PDF文件的形式利用特定领域的医疗保健数据以及FM来创建检索增强生成(RAG)Chatbot。本研究利用了亚马逊基岩的基础基础模型,Llama 2。我们的特定领域的医疗保健数据来自相关和可靠的来源。使用Python开发了RAG聊天机器人,并使用Rouge和Meteor,评估自动生成的文本评估指标对响应进行了评估。评估是基于三种情况:响应小于250个字符,超过250个字符以及来自多个LLM的响应。关键字 - LLM,亚马逊基岩,Genai,基础模型,Llama2,幻觉。我们的发现提供了有力的证据,表明具有特定数据的基础模型(FMS)可以提高模型在为患者提供可靠的医学知识时的质量。
本次研讨会旨在分享应用此类方法的实践经验。三个演讲将 LLM 生成性地应用于从客户支持中的票务路由到教学助理再到具有道德挑战性的安乐死决策领域等各个领域。生成 AI 方法的幻觉在这三个领域都是有问题的,演讲描述了缓解这些幻觉的不同方法:针对一组固定输出的 RAG 与监督学习方法相结合,针对多模态知识图 (KG) 的 RAG,以及通过查询 LLM 本身进行一系列是非问题的可解释 AI 方法。在最后的小组讨论中,将分享和讨论经验教训。
报告特别指出了人工智能 FM 生成的虚假评论、网络钓鱼、隐藏广告以及所谓的“幻觉” 33 和“深度伪造”的错误信息可能对消费者造成的危害。34 它还标记了消费者可能不了解 FM 的工作原理以及/或者内容是否由人工智能工具生成的担忧。报告讨论了可用于解决可能对消费者造成的危害的措施,例如测试、减轻幻觉的技术措施(例如通过“接地”)、披露要求(即,向用户说明他们何时与人工智能系统交互以及/或该系统的局限性)并采用标准或基准来衡量 FM 生成的输出的质量和/或可靠性。
众所周知,生成的AI工具经常产生虚构的事实,统计或引用为“幻觉”。我们问学生他们与AI产生的文本中出现幻觉的频率。他们倾向于觉得幻觉比频繁出现的偶尔是一个偶尔的问题,最受欢迎的选择是“很少”(17%)和“经常”(14%)。使用生成AI的人中最受欢迎的选择是“不知道”,由超过三分之一(35%)的AI用户选择。这可能表明学生经常使用生成的AI来知道它的可靠性,但它也可能表明这些学生并没有努力验证生成性AI产生的信息,并且可能会借鉴不准确的信息和引用。
使用大型语言模型来识别投资机会是诱人的,但是这种方法面临几个问题。幻觉的风险 - 返回合理但不正确的输出 - 尽管最新一代的模型已减少,但现在已知。11此外,大型语言模型可能会产生不可预测的结果,并带有轻微的输入变化或模型差异,导致不一致的产出,从而使后测试阶段在开发阶段很难。13然而,这些模型的能力正在迅速发展,并且将逐渐在投资过程中提高重要性。14他们也可以采用解释模型输出15的工具的输出,并生成报告,说明非专家会理解,从而促进财务分析师和投资组合经理的采用。
结果。多组验证性因素分析(CFA)显示了完整样本的足够拟合一维模型;但是,该国一级的单一组CFA显示,精神病的潜在潜在结构并不是不变的。具体来说,尽管一维结构适合埃塞俄比亚,肯尼亚和南非,但对乌干达来说还是很差的。相反,Mini-7精神病的2因子潜在结构为乌干达提供了最佳拟合度。对项目困难的检查表明,测量视觉幻觉的Mini-7项目K7在四个国家 /地区的难度最低。相比之下,四个国家的难度最高的项目不同,这表明每个国家对精神病的潜伏因素的最高预测性的Mini-7项目在每个国家 /地区都不同。
