•分数:MMLU的90.8%,MMLU-PRO的84.0%,GPQA钻石的71.5%。•胜过DeepSeek-v3,但尾随OpenAI-O1-1217。•与其他封闭式模型相比,教育任务擅长于教育任务。SimpleQA:胜过DeepSeek-V3,展示了强大的事实查询处理。
1简介1 1。1问题配方2 1。2研究问题3 2相关工作5 2。1 ICD编码的先前方法5 2。 1。 1传统的机器学习方法5 2。 1。 2深度学习方法6 2。 1。 3个大语言模型(LLMS)6 2。 2利用ICD代码层次结构进行距离计算8 2。 3在模型训练中解决非差异损失功能9 2。 4不确定性10 3方法13 3。 这项工作中使用的1个LLM 13 3。 2数据集16 3。 3数据处理16 3。 3。 1临床笔记处理16 3。 3。 2 ICD- 10代码处理17 3。 3。 3数据拆分17 3。 4 T 5-基本编码的模型17 3。 5使用t 5中的任务前缀进行ICD编码18 3。 6将ICD-10代码层次结构纳入培训过程18 3。 6。 1定义基于距离的损耗函数18 3。 6。 2克服解码模型输出的挑战23 3。 7用于ICD编码的微调T 5 24 3。 8评估指标24 3。 8。 1总距离(TD)24 3。 8。 2 ICD第2章(IIC)25 3。 8。 3无关的ICD块(IIB)25 3。 8。 4无关的ICD第三级(IIT)25 3。 9模型不确定性估计25 3。 10实验设置27 4结果29 4。 1数据分析结果29 4。 2。1 ICD编码的先前方法5 2。1。1传统的机器学习方法5 2。1。2深度学习方法6 2。1。3个大语言模型(LLMS)6 2。2利用ICD代码层次结构进行距离计算8 2。3在模型训练中解决非差异损失功能9 2。4不确定性10 3方法13 3。这项工作中使用的1个LLM 13 3。2数据集16 3。3数据处理16 3。3。1临床笔记处理16 3。3。2 ICD- 10代码处理17 3。3。3数据拆分17 3。4 T 5-基本编码的模型17 3。 5使用t 5中的任务前缀进行ICD编码18 3。 6将ICD-10代码层次结构纳入培训过程18 3。 6。 1定义基于距离的损耗函数18 3。 6。 2克服解码模型输出的挑战23 3。 7用于ICD编码的微调T 5 24 3。 8评估指标24 3。 8。 1总距离(TD)24 3。 8。 2 ICD第2章(IIC)25 3。 8。 3无关的ICD块(IIB)25 3。 8。 4无关的ICD第三级(IIT)25 3。 9模型不确定性估计25 3。 10实验设置27 4结果29 4。 1数据分析结果29 4。 2。4 T 5-基本编码的模型17 3。5使用t 5中的任务前缀进行ICD编码18 3。6将ICD-10代码层次结构纳入培训过程18 3。6。1定义基于距离的损耗函数18 3。6。2克服解码模型输出的挑战23 3。7用于ICD编码的微调T 5 24 3。8评估指标24 3。8。1总距离(TD)24 3。8。2 ICD第2章(IIC)25 3。 8。 3无关的ICD块(IIB)25 3。 8。 4无关的ICD第三级(IIT)25 3。 9模型不确定性估计25 3。 10实验设置27 4结果29 4。 1数据分析结果29 4。 2。2 ICD第2章(IIC)25 3。8。3无关的ICD块(IIB)25 3。8。4无关的ICD第三级(IIT)25 3。9模型不确定性估计25 3。10实验设置27 4结果29 4。1数据分析结果29 4。2。2实验结果30 4。1 LLM和ICD编码的输入长度的比较31 4。2。2比较ICD编码的不同块策略32
我们介绍了第一代推理模型,即DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero,一种通过大规模增强学习(RL)训练的模型,没有超级微调(SFT)作为初步的步骤,表现出显着的推理能力。通过RL,DeepSeek-R1-Zero自然出现,具有许多强大而有趣的推理行为。但是,它遇到了挑战,例如不良的可读性和语言混合。为了解决这些问题并进一步提高了推理性能,我们引入了DeepSeek-R1,该问题在RL之前结合了多阶段培训和冷启动数据。DeepSeek-R1在推理任务上实现与OpenAI-O1-1217相当的性能。为了支持研究社区,我们开放源DeepSeek-R1-Zero,DeepSeek-R1和六种密集的型号(1.5b,7b,8b,8b,14b,32b,32b,70b),根据Qwen和Llama蒸馏出了DeepSeek-R1。
我们介绍了第一代推理模型,即DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero,一种通过大规模增强学习(RL)训练的模型,没有超级微调(SFT)作为初步的步骤,表现出显着的推理能力。通过RL,DeepSeek-R1-Zero自然出现,具有许多强大而有趣的推理行为。但是,它遇到了挑战,例如不良的可读性和语言混合。为了解决这些问题并进一步提高了推理性能,我们引入了DeepSeek-R1,该问题在RL之前结合了多阶段培训和冷启动数据。DeepSeek-R1在推理任务上实现与OpenAI-O1-1217相当的性能。为了支持研究社区,我们开放源DeepSeek-R1-Zero,DeepSeek-R1和六种密集的型号(1.5b,7b,8b,8b,14b,32b,32b,70b),根据Qwen和Llama蒸馏出了DeepSeek-R1。
大型语言模型(LLM)已被定位为革命HCI,不仅可以重塑我们研究的接口,设计模式和社会技术系统,还可以重塑我们使用的研究实践。迄今为止,对HCI中LLM的吸收几乎没有了解。我们通过对2020 - 24年与LLMS互动的153篇Chi论文进行系统的文学评论来解决这一差距。我们分类法:(1)应用LLM的域; (2)LLM在HCI项目中的作用; (3)贡献类型; (4)公认的局限性和风险。我们通过经验和人工制品的贡献发现了10个不同领域的LLM工作。作者在五个不同的角色中使用LLM,包括作为研究工具或模拟用户。仍然,作者经常提高有效性和可重复性问题,并压倒性地研究封闭的模型。我们概述了通过LLM和LLM上改善HCI研究的机会,并为研究人员提供指导性问题,以考虑与LLM相关工作的有效性和适当性。
• 校验和验证:根据加密校验和验证模型文件和嵌入。 • 安全模型供应链:使用受信任的存储库并验证开源模型的来源。 • 上下文毒害:确保响应来自准确和真实的数据 • 实时监控
我们旨在评估大型语言模型(LLMS)进行具体的决策。尽管大量的工作一直在利用LLM在体现的环境中进行决策,但我们仍然缺乏对其性能的系统性理解,因为它们通常用于不同的域,用于不同的目的,并基于不同的输入和输出。此外,现有的评估倾向于仅依赖最终的成功率,因此很难确定LLM中缺少什么能力以及问题所在的地方,进而有效地和选择性地利用LLMS的药物。为了解决这些限制,我们提出了一个广义接口(e Mboded a gent i nterface),该界面支持基于LLM的模块的各种任务和输入输出规格的形式化。Specifically, it allows us to unify 1) a broad set of em- bodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpre- tation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics that break down evaluation into error types, such as hallucination errors, affordance errors, and various计划错误的类型。总体而言,我们的基准对LLMS在不同子任务中的性能进行了全面评估,从而指出了LLM驱动的体现体现的AI系统的优势和劣势,并提供了对LLM在体现决策中的有效和选择性使用的见解。
摘要 - 由于操作员的熟练程度和成像情况的差异,超声检查的次数急剧增加,低质量的超声成像已大大增加,因此对诊断准确性造成了严重负担,甚至导致重新诊断的风险在关键病例中重新开始诊断。为了帮助临床医生选择高质量的超声图像并确保准确的诊断,我们引入了超声波QBench,这是一种全面的基准,该基准在系统上可以评估多模式大型语言模型(MLLMS),以实现超声图像的质量评估任务。超声 - Qbench建立了从不同来源收集的两个数据集:IVUSQA,由7,709张图像和心脏硫酸氢菌组成,包含3,863张图像。这些图像包含常见的超声成像工件由专业的Ul-Trasound专家注释,并分为三个质量:高,中和低。为了更好地评估MLLM,我们将质量评估任务分解为三个维度:定性分类,定量评分和比较评估。对7个开源MLLM和1个原则的评估表明,MLLM具有超声图像质量分类中低级视觉任务的初步功能。我们希望这种基准能激发研究界的深入研究和增强MLLM在医学成像任务中的未开发潜力。索引术语 - 大型大语言模型(MLLM),质量评估,超声图像
从脑电图信号中解码人类活动一直是一个热门的研究课题。虽然最近的研究越来越多地将重点从单一受试者转移到跨受试者分析,但很少有人探索该模型对以前未见过的受试者的脑电图信号进行零样本预测的能力。本研究旨在调查深度学习方法是否可以捕获人类脑电图信号中固有的与受试者无关的语义信息。这些见解对于脑机接口 (BCI) 至关重要,因为一方面,它们证明了模型对受试者特定时间偏差的稳健性,另一方面,它们显着增强了下游任务的通用性。我们使用大型语言模型 (LLM) 作为去噪代理,从嘈杂的脑电图信号中提取与受试者无关的语义特征。包括消融研究在内的实验结果强调了 LLM 在从嘈杂的 EEG 数据中解码与主题无关的语义信息方面的关键作用。我们希望我们的研究结果将有助于推进 BCI 研究,并帮助学术界和工业界将 EEG 信号应用于更广泛的应用。
迅速的进步和广泛接受人工智能(AI)系统突出了一个紧迫的要求,以理解与AI相关的能力和潜在风险。鉴于AI研究中Arabic的语言复杂性,文化丰富性和代表性不足的状态,因此需要重点关注大型语言模型(LLMS)的效果和安全性。尽管他们的发展进展有所进展,但缺乏全面的信任评估基准,这在准确评估和证明阿拉伯语提示时提出了LLM的安全性。在本文中,我们介绍了Aratrust 1,这是阿拉伯语LLM的第一个全面的可信赖台。Aratrust包括522个人工编写的多项选择问题,这些问题解决了与真理,道德,隐私,非法活动,人类健康,身体健康,身体健康,不公平和冒犯性语言有关的各种维度。我们评估了针对我们的基准测试的一组LLM,以评估其可信度。gpt-4是最值得信赖的LLM,而开源模型(特别是ACEGPT 7B和JAIS 13B)努力在我们的基准测试中取得60%的分数。