自然语言处理(NLP)和机器学习(ML)领域的最新发展已显示自动文本处理的显着改进。同时,人类语言的表达在发现心理健康问题中起着核心作用。虽然口语在接受患者的访谈中被隐式评估,但书面语言也可以为临床专业人员提供有趣的见解。现有的工作中经常研究心理健康问题,例如抑郁或焦虑。然而,还在研究饮食失调的诊断如何从这些新技术中受益。在本文中,我们介绍了该领域最新研究的系统概述。Our investigation encompasses four key areas: (a) an analysis of the metadata from published papers, (b) an examination of the sizes and speci fi c topics of the datasets employed, (c) a review of the application of machine learning techniques in detecting eating disorders from text, and fi nally (d) an evaluation of the models used, focusing on their performance, limitations, and the potential risks associated with current methodologies.
通过将自然语言纳入附加指导来实现单眼深度估计的最新进展。尽管产生了令人印象深刻的结果,但语言先验的影响,尤其是在发生和鲁棒性方面,仍未得到探索。在此过程中,我们通过量化此之前的影响来解决这一差距,并引入方法以在各种环境中基准其有效性。我们生成“低级”句子,传达以对象为中心的三维空间关系,将它们纳入其他语言先验,并评估其对深度估计的下游影响。我们的关键发现是,当前语言引导的深度估计仅通过场景级别的描述和违反直觉的效果最佳地发挥作用。尽管利用了其他数据,但这些方法对于对抗性攻击并随着分配变化的增加而对性攻击和绩效下降并不强大。fi-nally,为了为未来的研究提供基础,我们识别出失败点,并提供见解以更好地理解这些缺点。使用语言进行深度估算的越来越多的方法,我们的发现突出了需要仔细考虑在现实世界中有效部署的机会和陷阱。1
当代的大规模视觉语言模型(VLM)具有强大的表示能力,使它们无处不在,可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此,VLMS经常在构图推理任务上挣扎,这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素:1)对比的方法传统上专注于从现有数据集中开采负面示例。但是,该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2),但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘,即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制,我们提出了一个框架,不仅在两个方向上矿山,而且在这两种方式(即图像和文本)中产生了有挑战性的负面样本。利用这些生成硬性负样本,我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。
在过去的十年中,言语和语言技术已经看到了前所未有的“成功”。在既定基准中衡量的广泛应用的性能显然稳步增长。许多工具通过在消费者和商业计算中的集成而广泛采用,语音和语言技术已成为围绕“人工智能”的兴趣(和炒作)的焦点。结果,研究人员长期以来以某种形式知道的技术,例如自动语音识别(ASR),语音综合(TTS)和(大型)语言模型(LLMS)在新颖的社会环境中被解释(和开发)。上下文中的这些变化,而不是(仅)技术本身,提出了许多埃斯特,技术和法律问题,例如:
人工智能(AI)已经在日常交流中广泛使用,但是尽管担心AI对社会的负面影响,但在很大程度上尚未探索使用它的社会后果。我们研究了最普遍的AI应用程序之一,算法响应建议(“智能答复”)的社会后果,这些建议每天发送数十亿条消息。两个随机实验提供了证据,表明这些类型的算法推荐系统会改变人们在亲社会和反社会方式上互相互动和感知的方式。我们发现,使用算法响应会改变语言和社会关系。更具体地说,它增加了沟通速度,积极的情感语言的使用,并且对话伙伴相互评估,以更接近和更合作。然而,与对AI的不利影响的共同假设一致,如果怀疑他们使用算法响应,对人们的评估更为负面。因此,即使AI可以提高沟通速度并改善人际观念,但AI的主要反社会含义会破坏这些潜在的好处,如果使用公开使用。
抽象的语法校正校正(GEC)工具,由先进的生成人工智能(AI)提供动力,在用户输入中有效地纠正了语言的不准确性。但是,它们通常在提供基本的自然语言解释方面缺乏,这些解释是学习语言并获得对语法规则的更深入的理解。在低资源语言(例如孟加拉语)中对这些工具的探索有限。在这样的语言中,革命错误说明(GEE)系统不仅应正确句子,而且还应提供错误的解释。这种综合方法可以帮助语言学习者寻求提高能力。我们的工作介绍了一个现实世界中的多域数据集,该数据集来自孟加拉语扬声器,具有不同的义务水平和语言复杂性。此数据集可作为GEE系统的评估基准标记,允许他们使用上下文信息来生成有意义的解释和高质量的更正。Various generative pre-trained large language models (LLMs), in- cluding GPT-4 Turbo, GPT-3.5 Turbo, Text-davinci-003, Text-babbage- 001, Text-curie-001, Text-ada-001, Llama-2-7b, Llama-2-13b, and Llama-2-70b, are assessed against human experts for performance comparison.我们的研究强调了自动部署孟加拉人GEE的当前最新生成预培训的LLM的局限性。主张进行人干预,我们的发现提议合并手动检查以解决语法错误并提高反馈质量。这种方法提出了一种更合适的策略,以重新确定孟加拉语的GEC工具,并阐明了语言学习的教育方面。
自主驾驶是一项复杂而具有挑战性的任务,旨在通过场景和推理来实现安全的运动计划。最近,通过增强的场景理解,几个关键问题,包括缺乏推理,低概括性能和长尾场景,但仍需要戴着几个关键问题,但仍需要进行一些关键问题。在本文中,我们提出了VLP,这是一个新颖的视力 - 语言规划框架,利用语言模式来弥合语言理解与自动驾驶之间的差距。VLP通过加强源内存基础和自动驾驶汽车的上下文理解来增强自主驾驶系统。vlp通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,分别在平均L2错误和碰撞率方面实现了35.9%和60.5%的端到端规划表演。此外,在面对新的城市环境时,VLP在挑战性的长尾方案和强大的概括能力方面表现出改善的性能。
从单个视图中恢复3D场景几何形状是计算机视觉中的基本问题。虽然经典的深度估计方法仅推断出2.5D场景表示为图像平面,但最新的基于辐射范围的aperach是重建完整的3D代表。然而,这些方法仍然在被占地的区域困难,因为没有视觉观察的几何形状需要(i)周围的语义知识,以及(ii)关于空间上下文的推理。我们提出了Kyn,这是一种单视场景重建的新方法,其原因是语义和空间上下文来预测每个点的密度。我们引入了一个视觉模块模块,以使用细粒度的语义信息丰富点特征。我们通过语言引导的空间注意机制在整个场景中汇总了点表示,以产生意识到3D语义环境的每点密度预测。我们表明,与预测每个3D点的密度相比,Kyn改善了3D形状的恢复。我们在Kitti-360上实现了最新的场景和对象重建结果,并且与先前的工作相比,零弹性概括的改进。项目页面:https://ruili3.github.io/kyn。
视觉语言(VL)模型最近取得了未经证实的成功,其中连接模块是弥合模式差距的关键。尽管如此,在大多数存在方法中,富裕的视觉线索尚未充分利用。在视觉侧,大多数现有方法仅使用视觉塔的最后一个功能,而无需使用低级功能。在语言方面,大多数现有的方法仅引入浅视力互动。在本文中,我们提出了一个视觉启发的视觉语言连接模块,称为VIVL,该模块有效利用了VL模型的视觉提示。为了利用视觉塔中的较低级别信息,引入了特征金字塔提取器(FPE),以结合不同中间层的特征,该特征将视觉提示与可忽略不计的参数和计算在头顶上。为了实现VL相互作用,我们提出了深视觉条件的提示(DVCP),可以有效地进行视觉和语言特征的深层互动。我们的VIVL超过了以前的最新方法,当时是18.1苹果酒在从头开始训练可可字幕任务,这极大地提高了数据效率。当用作插件模块时,VIVL始终提高各种骨干和VL框架的性能,在多个基准测试中提供新的最新结果,例如Nocaps和VQAV2。