幻觉是对多模态大语言模型(MLLM)的普遍挑战的幻觉,极大地阻碍了他们需要精确判断的真实用法。现有方法可以通过特定设计的数据进行培训,或通过其他来源的特定知识来缓解此问题,从而产生了不可避免的额外费用。在本文中,我们提出了一种新型的MLLM解码方法,该方法基于o-vertust pe nalty和r eTroptoction-llocation策略,它是一种几乎免费的午餐,可以减轻幻觉问题,并没有其他数据,知识,知识或培训。我们的方法始于一个有趣的观察结果,即,大多数幻觉与自我注意力矩阵所表现出的知识聚集作用紧密相关,即MLLM倾向于通过关注一些摘要的代价来产生新的代币,但并非所有以前的代币。这种部分过度信任的倾向会导致忽略图像令牌,并用幻觉描述图像内容。基于观察结果,Opera在梁搜索解码过程中引入了对模型逻辑的惩罚术语,以使Miti-Gate the Trust问题以及回滚策略回顾了在预先生成的令牌中存在摘要令牌的存在,并在必要必要时重新分配给标记。通过广泛的实验,Opera在不同的MLLM和指标上表现出明显的幻觉降低性能,证明其有效性和性质。我们的代码为:https://github.com/shikiw/opera。
学习建模字符串之间的关系的学习是什么教授大型语言模型(LLMS)关于Vi-Sual世界的?我们系统地评估了LLMS生成和识别出增加复杂性的各种视觉概念的能力,然后演示如何使用文本模型来培训预先的视觉表示学习系统。由于语言模型缺乏将视觉信息作为像素消耗或输出视觉信息的能力,因此我们使用代码来表示研究中的图像。尽管LLM生成的图像看起来不像自然图像,但图像产生的结果以及模型校正这些固定图像的能力表明,字符串的精确建模可以教授有关Vi-Sual World的许多方面的语言模型。此外,使用文本模型生成的图像进行了自我监督的视觉表示学习的实验,突出了能够训练能够使用LLMS对自然IM的语义评估进行训练视觉模型的潜力。
大型语言模型(LLMS)是非常大的深度学习模型,可根据大量数据进行重新训练。是句子的双向编码器表示,来自变形金刚(SBERT)的句子是基于变压器的DeNoising AutoCoder(TSDAE),生成查询网络(GENQ)和生成假伪标记(GPL)的改编。本论文项目旨在为瑞典法律判断开发语义搜索工具,以克服法律文件检索中传统关键字搜索的局限性。为此,使用高级培训方法(例如TSDAE,GENQ和GPL的改编),通过利用自然语言处理(NLP)(NLP)(NLP)(NLP)和精细的LLM来开发一种善于理解法律语言的语义细微差别的模型。要从未标记的数据中生成标记的数据,对其进行微调后使用了GPT3.5模型。使用生成模型的使用标记数据的生成对于该项目有效训练Sbert至关重要。已经评估了搜索工具。评估表明,搜索工具可以根据语义查询准确检索相关文档,并同样提高法律研究的效率和准确性。genq已被证明是此用例的最有效的训练方法。
将驾驶行为适应新的环境,库斯和法律是自主驾驶中的一个长期问题,排除了澳大利亚车辆(AVS)的广泛部署。在本文中,我们提出了LLADA,这是一种简单而强大的工具,它使人类驾驶员和自动驾驶汽车都可以通过调整其任务和动作计划来在新的地方进行访问规则,从而在任何地方开车。llada通过利用大型语言模型(LLMS)在解释本地驾驶员手册中的流量规则方面的令人印象深刻的零弹性可推广性来实现这一目标。通过广泛的用户研究,我们表明LLADA的说明可用于消除野外野外未受的情况。我们还展示了LLADA在现实世界数据集中适应AV运动计划策略的能力; Llada优于我们所有指标的基线计划。请查看我们的网站以获取更多详细信息:Llada。
事件摄像机最近显示出对实用视觉任务的有益,例如行动识别,这要归功于其高度分辨率,功率效率和引起的隐私问题。然而,当前的研究是由1)处理事件的困难,因为它们的持续时间长时间和动态动作具有复杂而模棱两可的语义; 2)事件框架表示带有固定堆栈的冗余作用。我们发现语言自然传达了丰富的语义信息,从而使其在降低疾病的不确定性方面非常出色。鉴于此,我们提出了一种新颖的方法,这是第一次解决基于事件的动作识别的跨模式概念化的识别。我们的确切确切带来了两项技术贡献。首先,我们提出了一个自适应细粒事件(AFE)表示,以自适应地过滤固定对象的重复事件,同时保留动态的对象。这巧妙地增强了精确的性能,而无需额外的计算成本。然后,我们提出了一个基于概念推理的不确定性估计模块,该模块模拟了识别过程以丰富语义代表。尤其是,概念推理基于动作语义建立时间关系,而不必要的估计可以解决基于分布表示的动作的语义不确定性。实验表明,在PAF,HADDV和我们的SEACT数据集上,我们的确切确切识别获得了94.83%(+2.23%),90.10%(+2.23%),90.10%(+37.47%)和67.24%。
摘要 - 为了充分利用移动操纵机器人的功能,必须在大型未探索的环境中自主执行的长途任务。虽然大型语言模型(LLMS)已显示出关于任意任务的紧急推理技能,但现有的工作主要集中在探索的环境上,通常集中于孤立的导航或操纵任务。在这项工作中,我们提出了MOMA-LLM,这是一种新颖的方法,该方法将语言模型基于从开放式摄影场景图中得出的结构化表示形式,随着环境的探索而动态更新。我们将这些表示与以对象为中心的动作空间紧密地交织在一起。重要的是,我们证明了MOMA-LLM在大型现实室内环境中新型语义交互式搜索任务中的有效性。最终的方法是零拍摄,开放式摄影库,并且可以易于扩展到一系列移动操作和家用机器人任务。通过模拟和现实世界中的广泛实验,与传统的基线和最新方法相比,我们证明了搜索效率的显着提高。我们在http://moma-llm.cs.uni-freiburg.de上公开提供代码。
好:这是一个非常严重的问题。研究表明,由于整个刑事司法系统中的系统性种族偏见,黑人和棕色的人,尤其是男人,与白人相比,与白人相比,被囚禁不成比例。
摘要。我们的生活现在围绕社会交流,并且由于阿拉伯文本非常复杂并且包含了许多方言,因此在阿拉伯社交媒体上很难识别出令人反感的语言。本文研究了机器学习模型的实施。使用了选择的分类器,包括决策树,支持向量机,随机森林和逻辑回归。在实验中使用了包含4505个推文的“ ARCYBC”数据集,以评估机器学习模型的性能。根据实验的结果,使用更多运行可以增强机器学习模型的性能,尤其是在精度和召回率方面。随着更多的运行,决策树(DT)和随机森林(RF)分类器显示出更好的回忆和精度,但是DT分类器显示出更好的精度。