抽象疾病管理,特别是对于慢性病或老年人,涉及持续监测,生活方式调整和频繁的医疗互动,需要有效的家庭护理解决方案。为了满足这些需求,聊天机器人技术已成为支持患者自主管理健康的有前途的工具。在这种情况下,聊天机器人必须提供及时,准确的信息和持续的善解人意支持,以维持患者的参与度。此外,数据隐私问题需要避免第三方自然语言处理和发电服务。为了满足这些需求,在本文中,我们建议开发聊天机器人,以支持患者管理慢性病,重点关注高血压。特别是,由于隐私要求,我们使用开源大型语言模型来避免专有系统。鉴于他们的性能基于最先进的指标,我们不竞争第三方服务,因此我们结合了检索增强发电(RAG)技术,建立了一个知识库,并通过医学专业人员的投入来提高模型性能。我们评估了七个开源型号,其中包括两个在医疗领域进行的专门培训。我们的结果表明,抹布可显着提高性能,超过没有抹布的专门医疗域模型。这种方法提供了一种有希望的解决方案,用于独立安全地管理慢性条件。
•使用LLM进行视频分类,操作识别,对象检测和跟踪,细分,字幕和其他视频理解任务的含义。•通过LLM的预训练策略,例如自我监督学习,无监督学习和多任务学习,零/少量视频表示学习。•多模式基础模型的技术进步,包括视觉基础模型,视频语言基础模型和视觉语言动作基础模型。•LLM在各个行业和跨学科领域的视频理解的应用,例如智能制造,机器人技术,智能城市,生物医学和地理。•探索将LLM与扩散模型相结合的能力,以增强视频内容的生成或编辑的可访问性和多样性。•克服与利用LLM有关的视频理解相关的技术障碍,包括对解释性和安全性的担忧。
科学问题解决涉及在应用专家知识的同时综合信息。我们引入了 CURIE,这是一个科学的长上下文理解、推理和信息提取基准,用于衡量大型语言模型 (LLM) 在协助科学家进行现实实验和理论工作流程方面的潜力。该基准引入了由六个学科的专家策划的十项具有挑战性的任务:材料科学、凝聚态物理、量子计算、地理空间分析、生物多样性和蛋白质。我们在 CURIE 中的任务上评估了一系列封闭和开放的 LLM,这些任务需要领域专业知识、对长上下文信息的理解和多步骤推理。虽然 Claude-3 在各个领域都表现出一致的高理解力,但流行的 GPT-4o 和 command-R + 在蛋白质测序任务上表现不佳。总的来说,所有模型都有很大改进空间。我们希望这项工作能够指导未来科学领域 LLM 的发展。
摘要 - 随着机器智能的发展,需要测试和比较不同AI模型的问题解决能力的需求。但是,当前的基准通常很简单,允许模型均匀地表现良好,并且很难区分其功能。此外,基准通常依赖于模型可能记住或猜测的静态问答对。为了解决这些局限性,我们引入了动态智能评估(DIA),这是一种使用动态问题模板测试AI模型的新方法,并改善了多个学科的指标,例如数学,密码学,网络安全性和计算机科学。随附的数据集,Dia-Bench包含各种挑战模板的集合,这些挑战模板具有各种形式的可变参数,包括文本,PDF,编译的二进制文件,视觉难题和CTF风格的网络安全挑战。我们的框架介绍了四个新指标,以评估多次尝试的模型的可靠性和信心。这些指标表明,以不同形式摆姿势时,即使是简单的问题也经常被错误地回答,从而突出了模型的可靠性中的显着差距。值得注意的是,像GPT-4O这样的API模型通常高估了其数学功能,而ChatGpt-4O由于有效的工具使用而显示出更好的性能。在自我评估的Openai的O1-Mini中,证明其应尝试解决哪些任务是最好的判断。我们使用DIA-Bench评估了25个最先进的LLMS,这表明当前的模型在复杂的任务中遇到了困难,并且即使有更简单的问题也表现出意外的较低信心。DIA框架设定了一个新标准,不仅可以评估解决问题的问题,还设定了模型的自适应智能和评估其局限性的能力。该数据集在项目页面上公开可用:https://github.com/dia-bench。索引术语 - 手工智能,大语言模型,动态基准测试,性能指标,可靠性
强化学习(RL)是一种广泛采用的LLM训练后培训方法,用于增强对齐和推理能力。本演讲将介绍我们在设计有效的RL算法和培训LLM的系统方面的最新进展。在算法方面,我们将首先讨论流行的RLHF方法(即DPO和PPO)之间的优缺点,并表明正确配置的PPO培训可以基本上改善有关挑战竞争性编码基准的LLM表现。然后,我们将讨论一些LLM奖励设计的常见陷阱,这些陷阱很容易导致LLM RL培训中不希望的失败。我们建议可以稳定RL培训并提高LLM数学推理功能的简单技巧。在系统方面,我们将介绍分布式的RLHF培训系统RealHF,该系统是所有算法作品的系统基础。RealHF专门研究LLM RL培训,与其他开源RLHF系统相比,可以实现超过10倍的速度。可以在此处找到相关论文:https://arxiv.org/pdf/2404.10719,https://arxiv.org/pdf/2410.15115,https://arxiv.org.org.org/pdf/pdf/2406。14088。
最近的作品探索了用于医疗保健中各种任务的大型语言模型(LLM),结果令人印象深刻。例如,使用Llama(大语言模型META AI)模型对医学文献进行微调,在生物医学质量检查数据集上获得了有希望的结果。LLM在公共卫生和临床任务中的其他应用涉及对几项预测任务进行电子健康记录的培训,而预培训的版本已用于心理健康分析,使用社交媒体进行情感检测。其中一些已将临床准则实施到LLM中以进行决策支持,而Chatgpt和BiomedLM已用于个性化肿瘤学。除了决策和文档外,LLM的应用包括通过问答系统,医疗聊天机器人和虚拟健康助理与患者的互动。他们甚至被应用于分析可穿戴设备的时间序列健康数据,以进行活动识别和健康监测等任务。尽管具有潜力,但LLMS还提出了有关医疗保健领域可靠性和透明度的非常重要的挑战。这些模型可能会在没有彻底验证的情况下产生不正确的医疗信息,这可能导致严重的误诊和治疗错误,通常会产生深度,推理和来源透明度的反应。
大型语言模型(LLM)的最新进步已在各种应用程序中实现了有希望的表现。nonthe sell,整合长尾知识的持续挑战继续阻碍了专业人士中LLM的无缝采用。在这项工作中,我们介绍了dalk,又称d ynamic的共同体LMS和K g,以解决这一局限性,并证明其研究阿尔茨海默氏病(AD)的能力,生物医学专业的亚场和全球健康优先级。With a synergized frame- work of LLM and KG mutually enhancing each other, we first leverage LLM to construct an evolving AD-specific knowledge graph (KG) sourced from AD-related scientific literature, and then we utilize a coarse-to-fine sampling method with a novel self-aware knowledge re- trieval approach to select appropriate knowl- edge from the KG to augment LLM inference capabilities.实验结果是在我们构建的AD问题答案(ADQA)基准的基准上进行的,强调了Dalk的效果。此外,我们执行了一系列详细的分析,这些分析可以为相互增强KG和LLM的新兴主题提供有价值的见解和准则。
同理心是实现亲社会行为的基石,可以通过在故事中分享个人经历来唤起。虽然同理心受到叙事内容的影响,但直觉上,人们也会通过叙事风格对故事的讲述方式做出反应。然而,同理心和叙事风格之间的关系尚未完全了解。在这项工作中,我们使用 LLM 和大规模众包研究,对风格和同理心之间的关系进行了实证检验和量化。我们引入了一种基于理论的新颖分类法 H EART(人类同理心和叙事分类法),它描述了可以与故事叙述者产生同理心的叙事风格元素。我们确定了 LLM 在从 H EART 中提取叙事元素方面的表现,表明使用我们的分类法进行提示可以产生合理的、人类级别的注释,超出了以前基于词典的方法所能达到的范围。为了展示我们分类法的实证应用,我们通过一项大规模众包研究收集了故事共情判断数据集,参与者人数为 N = 2,624 人。1 我们表明,通过 LLM 提取的叙事元素(尤其是情感生动性和情节量)可以阐明叙事风格培养对个人故事的共情的途径。我们的工作表明,此类模型可用于叙事分析,从而获得以人为本的社会和行为洞察。
我们是否充分利用多模式大语模型(MLLM)中视觉编码器的潜力?MLLM最近在多模式理解中的出色表现引起了学术界和行业的广泛关注。在当前的MLLM大鼠种族中,重点似乎主要是语言方面。我们目睹了较大和更高质量的指导数据集的兴起,以及大型LLM的参与。然而,很少关注的注意力指向MLLM使用的视觉信号,通常被认为是冷冻视觉编码器提取的最终高级特征。在本文中,我们介绍了密集的连接器 - 一种简单,有效且插件的视觉语言连接器,通过利用多层视觉特征来显着增强现有MLLM,并以最少的额外计算开销。在此基础上,我们还提出了有效的密集连接器,该连接器的性能与Llava-V1.5相当,只有25%的视觉令牌。此外,我们的模型仅在图像上进行了训练,还展示了视频理解中出色的零拍功能。各种视觉编码器,图像分辨率,训练数据集量表,不同尺寸的LLM(2.7b→70b)以及MLLM的不同架构(e。g。,llava-v1.5,llava-next和mini-gemini)验证了我们方法的多功能性和可扩展性,从而在19个图像和视频基准中实现了最先进的性能。我们希望这项工作将提供宝贵的经验,并成为未来MLLM开发的基本模块。代码可在https://github.com/hjyao00/denseconnector上找到。
摘要AI生成的媒体的扩散,尤其是在艺术方面,引发了人们的兴趣创建与原始和AI生成的艺术品之间的模型。但是,了解为什么这些模型做出某些决策仍然是一个重大挑战。本文通过使用Grad-CAM来生成模型焦点区域的视觉解释,并结合大型语言模型(LLMS)来提供自然语言描述,从而增强了基于视觉变压器的分类模型的解释性。我们通过使用它们来生成用于艺术品分类的Grad-CAM可视化的文本说明,评估了三个尖端的LLM:Llava-下一个,指令Blip和Kosmos-2。通过定量和定性分析,我们发现,尽管指令blip和kosmos-2在生成的描述和视觉内容之间达到了更高的相似性得分,但llava-next提供了更具洞察力和连贯的解释,尤其是对于AI生成的艺术。这项研究证明了LLM在复杂的图像分类任务中提高AI决策的解释性的潜力,有助于弥合模型决策与人类理解之间的差距。