摘要 - 视觉生成仍然是人工智能中的具有挑战性的边界,需要无缝整合视觉不介绍和生成能力。在本文中,我们提出了一个新颖的框架,即视觉驱动的及时优化(VDPO),该框架利用大型语言模型(LLMS)动态地从视觉输入中生成文本提示,从而指导高实现图像综合。VDPO结合了视觉嵌入提示调谐器,文本指令生成器和视觉生成模块,以实现各种视觉生成任务的最新性能。在基准(例如可可和粗略)上进行的广泛实验表明,VDPO始终超过现有方法,从而实现了FID,LPIPS和BLEU/CIDER分数的显着改进。其他分析揭示了VDPO的可扩展性,鲁棒性和概括能力,使其成为内域和外域任务的多功能解决方案。人类评估进一步验证了VDPO在产生视觉吸引力和语义相干输出方面的实际优势。索引术语 - LARGE语言模型,提示优化,扩散模型
Kadir Karakaya摘要:本文探讨了与大型语言模型或复杂信息任务中的人类互动,重点是迅速工程策略。本文回顾了有关使用人工智能(AI)的当前文献,这些文献通常是非线性的,并且需要解释,组织和信息的综合。在提示增强生成AI响应的角色上的作用上,该研究框架促使工程作为一种媒介,有可能使用户能够迭代地处理复杂的信息任务。它提供了使用关键提示策略的建议,例如任务分解,迭代精致,受众和上下文的识别以及角色/角色分配。考虑到促使作为批判性AI素养的显着重要性,本文以几种含义结尾,可能有利于在生成AI背景下增强人类交流。关键字:生成AI,人类互动,大语言模型,及时的工程,复杂的信息任务,AI读写能力,促使策略
摘要 - 多模式大语言模型(MLLM)在许多自动驾驶任务中都表现出令人满意的效果。在本文中,MLLM可用于解决联合语义场景的理解和风险本地化任务,而仅依靠前视图像。在拟议的MLLM-SUL框架中,双分支视觉编码器首先旨在从两种分辨率中提取特征,并且丰富的视觉信息有助于语言模型,以准确描述不同尺寸的风险对象。然后,对于语言生成,美洲驼模型进行了微调,以预测场景描述,其中包含驾驶场景的类型,风险对象的动作以及驱动意图和自我车辆的建议和建议。最终,基于变压器的网络结合了回归令牌,以定位风险对象。在现有的戏剧 - 罗利人数据集和扩展的戏剧-SRIS数据集上进行了广泛的实验表明,我们的方法是有效的,超过了许多基于图像的最新和基于视频的方法。具体来说,我们的方法在现场理解任务中获得了80.1%的BLEU-1分数和298.5%的苹果酒得分,而本地化任务的精度为59.6%。代码和数据集可在https://github.com/fjq-tongji/mllm-sul上找到。
摘要 - 交互式社交机器人助手必须在复杂而拥挤的空间中提供服务,同时根据实时人类语言命令或反馈来调整其行为。在本文中,我们提出了一种新型的混合方法,称为社会机器人计划者(SRLM),该方法集成了大型语言模型(LLM)和深度强化学习(DRL),以浏览人体充满的公共空间并提供多种社会服务。srlm实时从人类中的命令中注入全球计划,并将社会信息编码为基于LLM的大型导航模型(LNM),以进行低级运动执行。此外,基于DRL的计划者旨在维持基准测试性能,该性能由大型反馈模型(LFM)与LNM混合,以解决当前文本和LLM驱动的LNM的不稳定性。最后,SRLM在广泛的实验中表现出了出色的表现。有关此工作的更多详细信息,请访问:https://sites.google.com/view/navi-srlm。
大型语言模型(LLMS)研究的加速度为评估生成的文本开辟了新的可能性。尽管LLM是可扩展和经济的评估者,但这些评估者的可靠性仍然不足。在法官将LLM的提示限制为单一用途以获得最终评估决定时,在元评估中进行了元评估。 然后,他们计算LLMS的输出和Human标签之间的一致性。 这缺乏理解LLM的评估能力的解释性。 鉴于这一挑战,我们提出了DNA-eval,它将评估过程分解为基于教学实践的分解和聚集阶段。 我们的实验表明,它不仅为LLMS评估的评估提供了一个更容易解释的窗口,而且还可以在各种元评估台上的不同LLM中改善高达39.6%的窗口。在元评估中进行了元评估。然后,他们计算LLMS的输出和Human标签之间的一致性。这缺乏理解LLM的评估能力的解释性。鉴于这一挑战,我们提出了DNA-eval,它将评估过程分解为基于教学实践的分解和聚集阶段。我们的实验表明,它不仅为LLMS评估的评估提供了一个更容易解释的窗口,而且还可以在各种元评估台上的不同LLM中改善高达39.6%的窗口。
这项研究通过引入一种利用大型语言模型(LLM)的新方法来应对多模式对话系统中意图识别的复杂挑战。通过使用低级别适应性(LORA)微调最先进的模型,我们实现了重大的性能改进。为了解决传统方法的局限性,我们采用了一套高级增强技术,包括用于文本提取的光学特征识别(OCR),以及图像裁切,旋转,颜色调整和文本转换,例如同义词更换和句法重新排序。此外,我们整合了知识蒸馏和检索效果生成(RAG)技术,以结合外部知识,从而进一步提高了模型的性能。通过全面的消融研究和细致的参数调整,我们的模型超过了5.35%的基线性能,证明了在多模式意图识别中利用LLM的实质性好处。
建立可以推理,适应和与环境互动的智能自治系统一直是人工智能的长期目标。本文通过深度学习革命探索了代理系统的演变,从强化学习到现代大型语言模型(LLM),重点关注创建可靠的自主媒介所需的关键组成部分。首先,我们解决了深度强化学习(RL)中泛化的基本挑战,引入了一个系统的框架,用于评估和改善学习政治在环境中的掌握方式转移的方式。在此基础上,我们提出了事后的任务Relabeling(HTR),这是一种新颖的方法,它使Meta-RL算法能够在稀疏的奖励环境中学习适应策略,而无需在培训期间需要密集的奖励信号。最后,我们解决了使用大型语言模型建立可靠代理的新兴挑战。LLMS展示了前所未有的推理能力,但它们作为自主代理的有效性受其架构中的基本限制的限制 - 最值得注意的是,他们的无状态性质和固定上下文窗口。我们提出了一个由操作系统启发的框架,使LLMS能够管理自己的内存和状态,介绍虚拟上下文管理和自我指导的内存操作等概念。模因表明,通过将LLM视为一个新的计算基本单位 - 类似于CPU是传统操作系统中的基本单位 - 我们可以构建更可靠和有能力的自主剂。一起,这些系统追踪了代理AI系统的演变,并提供了创建更可靠和有能力的自主代理的关键构建块。通过解决概括,适应和内存管理方面的核心挑战,本文为工程设计下一代的AI系统建立了基础,该系统可以有效地推理并与世界互动。
我们提出了一个大型语言模型的演示:有选择地遵守其训练目标,以防止其行为改变训练。首先,我们给Claude 3 Opus一个系统提示,说明它正在接受培训以回答所有查询,甚至有害的疑问,这与先前培训以拒绝此类查询相抵触。允许该模型在培训时推断出来,我们说它将仅在与自由用户而不是付费用户的对话中进行培训。我们发现该模型符合自由用户的有害查询,有14%的时间,而几乎从未对付费用户。解释这一差距,在几乎所有模型都符合自由用户有害查询的情况下,我们观察到明确的对齐方式推理,该模型指出,它在战略上在培训中策略性地回答了有害的查询,以保留其首选的无害行为,使其无法训练。接下来,我们研究了一个更现实的环境,在该设置中,不是在系统提示中提供有关培训过程的信息,而是通过对模仿预训练数据的合成文档进行培训,并观察到类似的对齐伪造。最后,我们研究了通过强化学习训练模型以符合有害查询的效果,尽管培训甚至在培训中甚至可以提高合规性,但我们发现这将对对齐推理的速度提高到78%。我们还观察到其他行为,例如模型在给予轻松的机会时会剥落其权重。通过告诉模型在何时何地进行培训,使对齐伪造变得更加容易,但我们没有指示模型伪造对齐或给予任何明确的目标。由于未来的模型可能会推断出有关其培训过程的信息而不会被告知,因此我们的结果表明,未来模型的一致性伪造的风险,无论是由于良性偏好(在这种情况下,还是不是)。
摘要自主代理人长期以来一直是学术和行业社会的研究重点。以前的研究通常集中于孤立的环境中知识有限的培训代理,这与人类的学习过程有很大不同,并使特工难以实现类似人类的决策。最近,通过获取大量的Web知识,大型语言模型(LLMS)在人类水平的智能中表现出了潜在的,从而导致对基于LLM的自主代理的研究激增。在本文中,我们对这些研究进行了全面的调查,从整体观点进行了对基于LLM的自主剂的系统综述。我们首先讨论基于LLM的自主代理的构建,提出了一个统一的框架,该框架涵盖了以前的许多工作。然后,我们概述了基于LLM的自主代理在社会科学,自然科学和工程中的应用。最后,我们深入研究了通常用于
统一信息提取(UIE)旨在从非结构化文本中提取各种结构化信息。虽然大型语言模型(LLMS)对UIE表现出了希望,但它们需要大量的计算资源,并且经常难以推广到看不见的任务。我们提出了Ruie(基于r Etrieval的U NIDIFIED I NFORMATION e XTRACTION),该框架利用了文本学习以进行有效的任务概括。ruie介绍了一种新颖的演示选择机制,将LLM偏好与关键字增强的模型相结合,并采用了通过对比度学习和知识蒸馏而训练的双重编码猎犬。作为UIE的第一个可训练的检索框架,Ruie是各种LLM的Univer-sal插件。八个持有数据集的实验结果证明了Ruie的有效性,与指导调用方法和其他检索器相比,F1得分的平均改善分别为19.22和3.22。