摘要:图表图像分类是自动化数据提取和从可视化的解释的关键任务,这些任务被广泛用于业务,研究和教育等领域。在本文中,我们评估了卷积神经网络(CNN)和视觉模型(VLM)的性能,鉴于它们在各种图像分类和理解任务中的使用越来越多。,我们构建了25种图表类型的不同数据集,每个数据集包含1,000张图像,并培训了多个CNN体系结构,同时还评估了预训练的VLM的零拍概括能力。我们的结果表明,在经过专门用于图表分类的培训时,CNN胜过VLM,尽管如此,它仍显示出有希望的潜力,而无需特定于任务的培训。这些发现强调了CNN在图表分类中的重要性,同时突出了VLM的进一步微调的未开发潜力,这对于推进自动数据可视化分析至关重要。
摘要 - 由于数据稀缺,在混乱的场景中挖掘仍然是灵巧的手。为了解决这个问题,我们提出了一个大规模的合成数据集,包括1319个对象,8270个场景和4.26亿个格拉斯普斯。除了基准测试之外,我们还从掌握数据中探索了数据有效的学习策略。我们揭示了以局部特征为条件的生成模型和强调复杂场景变化的GRASP数据集的组合是实现有效概括的关键。我们提出的生成方法在模拟实验中优于所有基准。更重要的是,它通过测试时间深度恢复表明了零拍的SIM到现实转移,获得了90.70%的现实世界灵巧抓地力成功率,展示了利用完全合成训练数据的强大潜力。
预测行人行为是确保自动驾驶汽车安全性和可靠性的关键。尽管通过从注释的视频框架序列中学习深入学习方法,但他们通常无法完全掌握行人与交通之间的动态相互作用,但可以进行准确的预测。这些模型也缺乏细微的常识推理。此外,这些模型的数据集的手动注释既昂贵又挑战,以适应新情况。视觉语言模型(VLM)的出现,由于其先进的视觉和因果推理技能,引入了这些问题的有希望的替代方案。据我们所知,这项研究是第一个在自主驱动的行人行为预测的概述中对VLM进行定量和定性评估的研究。 我们在公开可用的Pedes-Trian数据集上评估GPT-4V(ISION):JAAD和Wideview。 我们的定量分析重点是GPT-4V预测当前和未来帧中行人行为的能力。 该模型以零拍的方式达到了57%的精度,尽管令人印象深刻,但仍落后于最新的域特异性模型(70%),以预测行人交叉行动。 定性,GPT-4V表现出令人印象深刻的处理和解释综合交通情况,区分各种脚步行为以及检测和分析组的能力。 但是,它面临着挑战,例如难以检测较小的脚步 - 评估行人与自我车辆之间的相对运动。据我们所知,这项研究是第一个在自主驱动的行人行为预测的概述中对VLM进行定量和定性评估的研究。我们在公开可用的Pedes-Trian数据集上评估GPT-4V(ISION):JAAD和Wideview。我们的定量分析重点是GPT-4V预测当前和未来帧中行人行为的能力。该模型以零拍的方式达到了57%的精度,尽管令人印象深刻,但仍落后于最新的域特异性模型(70%),以预测行人交叉行动。定性,GPT-4V表现出令人印象深刻的处理和解释综合交通情况,区分各种脚步行为以及检测和分析组的能力。但是,它面临着挑战,例如难以检测较小的脚步 - 评估行人与自我车辆之间的相对运动。
尽管强化学习(RL)可以解决许多具有挑战性的顺序决策问题,但在重新任务中实现零拍摄的转移仍然是一个挑战。困难在于为术任务找到一个良好的表示形式,以便代理商了解其对以前看到的任务的方式。为了实现零拍传递,我们介绍了函数编码器,该函数编码器是一种表示算法的表示算法,该算法将函数代表为学习的非线性基函数的加权组合。通过使用函数编码器来表示奖励功能或过渡函数,代理就当前任务如何与通过相干向量代表的预先看到的任务相关联。因此,代理能够在运行时间之间实现在相关任务之间进行转移,而无需训练。,我们通过通过功能编码器任务表示形式来增强基本的RL算法来展示三个RL字段中最先进的数据效率,渐近性能和训练稳定性。
从所见的属性 - 对象对学习以概括为未看到的组合物,已在组合零拍学习(CZSL)中进行了广泛的研究。但是,CZSL设置仍然仅限于看到的属性和对象,并且不能概括地看不见的概念及其组成。为了克服这一局限性,我们提出了一项新任务,开放的词汇 - 组成零 - 折射学习(OV-CZSL),其中评估了未看到的属性,对象和看不见的组成。表明OV-CZSL是一个具有挑战性但可解决的问题,我们提出了基于存在的数据集MIT态的三个新基准(Isela,Lim和Adelson 2015),C-GQA(Mancini等人(Mancini等)(Mancini等人)2022)和vaw-czsl(Saini,Pham和Shrivastava 2022; Pham等人2021),以及新的基准和评估设置。我们将语言嵌入和外部词汇与我们新颖的邻里扩展损失一起使用,以允许任何方法学习观察和看不见的原始物之间的语义相关性。
大型语言模型(LLM)的进步已经改变了自然语言处理领域,并具有巨大的社会科学分析潜力。我们探讨了LLMS在监督文本分类中的应用。作为一个案例研究,我们考虑了立场检测并检查不同体系结构,培训制度和任务规范的预测准确性的变化。我们比较了从8600万到1.7万亿个参数和四个截然不同的培训制度的十个型号:基于及时的零拍学习;几乎没有学习;微调;和指导调节。最大的型号通常提供最佳的预测性能,但是微调较小的型号是一个竞争解决方案,因为它们的精度相对较高,成本较低。对于复杂的预测任务,指导性的开放权重模型可以表现良好,可与最先进的商业模型匹配。我们为社会学研究中使用LLM进行文本分类提供了建议,并讨论了与这些技术使用相关的局限性和挑战。
扩散模型最近表现出令人印象深刻的以无监督方式解决反问题的能力。现有方法主要集中于修改后层过程,但正向程序的潜力仍然在很大程度上没有探索。在这项工作中,我们提出了扩散的快捷方式采样(SSD),这是一种以零拍的方式解决反问题的新方法。,而不是从random噪声中启动,而是找到一个特定的过渡状态,该状态桥接了微观的图像y和已恢复的图像x。通过利用“输入 - 过渡状态 - 输出”的快捷路径,SSD可以通过更少的步骤实现精确的修复。在实验上,我们将SSD对多个代表性的IR任务的有效性进行了影响。我们的方法与最先进的零射击方法(100 NFE)相比,只有30个NFE实现了竞争性,并在某些任务中以100个NFE的优于它们。代码可在https://github.com/gongyeliu/ssd上使用。
抽象开发的特定于域的对话剂(CAS)受到对广泛针对域数据的需求的挑战。大型语言模型(LLMS)的最新进展使它们成为知识骨干的可行选择。llms的行为,指示他们以零拍的方式执行下游任务(即没有培训)。为此,我们将结构知识纳入了提示中,并使用了提示LLM的原型域特异性CAS。我们在特定领域的纺织循环中演示了一个案例研究 - 纺织机器人,我们介绍了纺织机器人的设计,开发和评估。特别是,我们进行了一项面对面的用户研究(n = 30),其中包含免费的聊天和信息收集任务,并带有纺织机器人,以收集互动中的见解。我们分析了人类 - 代理人的相互作用,结合了定量和定性方法。我们的结果表明,参与者从事多转向对话,他们对三种变异剂和相互作用的看法各不相同,这表明了我们迅速的LLM方法的有效性。我们讨论了这些相互作用的动态及其对设计基于语音的CAS的影响。
多模式嵌入式编码文本,图像,热图像,声音和视频中的单个嵌入空间,对跨不同方式的对齐表示(例如,,将狗的图像与吠叫声相关联)。在本文中,我们表明多模式的嵌入可能容易受到我们称为“对抗幻觉的攻击”。给定图像或声音,对手可以扰动它,以使其嵌入接近另一种模式中的任意,对手选择的输入。这些攻击是跨模式和目标的:对手可以将任何图像或声音与他选择的任何目标保持一致。广泛的幻觉利用了嵌入空间中的邻近性,因此对下游任务和方式不可知,从而实现了当前和将来的任务的批发妥协,以及对敌方无法获得的方式。使用Imbind和AudioClip嵌入,我们演示了对抗性输入,在不了解特定下游任务,误解图像生成,文本生成,零拍,零拍摄和音频检索的情况下生成的对准输入是如何对准的。我们调查了跨不同嵌入式嵌入方式的幻觉的可转移性,并开发了我们方法的黑盒版本,我们用来证明对亚马逊商业专有泰坦嵌入的第一个对抗性对齐攻击。最后,我们分析了对策和逃避攻击。
自动语音识别(ASR)系统近年来见证了显着的进步。上下文化的ASR任务需要识别语音不是孤立的话语,而是在更广泛的情况下。常规方法经常采用第二通范式来重新排列初始转录,但它们有可能在候选假设中遇到预测错误,从而损害了识别精度。在这项研究中,我们引入了一个新颖的框架,该框架与典型的第二频繁撤退方法不同。给出了n-最佳假设,我们利用大型语言模型来提示上下文化的第二通过。除了追求更高的准确性外,我们还旨在探索性能边界,而无需实质上改变潜在的预培训的语言和语言模型。我们通过零拍的提示和战略性的低级适应调整来提高所提出的范式的有效性。在多个价值的口语阅读理解基准基准SRC上,促使模型和微调模型的表现优于1好的ASR假设,分别达到了13.6%和45.9%的明显相关性单词错误率(WER)改善。结果表明,提出的方法增强了转录准确性和上下文理解。