图 1:对特定特征维度的注意力如何塑造神经特征维度图?A. 优先级图理论假设各种“特征维度图”用于根据其首选特征维度内的计算来索引视野中最重要的位置,并且这些图中的激活应根据观察者的目标进行缩放。如果正在进行的任务需要检测或辨别运动(例如,识别飞镖蜂鸟的运动方向),则相应“运动图”内的激活将增加与蜂鸟位置相关的重要性。运动图可以通过两种方式优先考虑超出空间注意力预期的局部效应的信息(例如,Sprague 等人,2018 年)。可以发生局部增强,这样只有具有关注特征的刺激的位置才会被优先考虑。或者,可以发生全局增强,这样整个地图上的激活被附加缩放,从而增加对任何位置关注特征维度的敏感度。这种类型的调制仍会驱动更强的目标表征,但当运动是目标相关特征维度时,还会在没有刺激的位置导致更强的反应。这里描绘了运动维度图,但调制同样适用于其他特征维度,例如颜色。B. 评估特征(运动)图中刺激位置和相反位置的激活可以区分局部和全局增强解释。两种模型都预测,当首选特征维度相关(例如运动;左)时,刺激将在刺激位置具有最大的激活。如果增强是局部的,那么相反位置的激活不应该在各种条件下改变(中间)。但是,如果存在全局增强,那么当运动与任务相关时,相反位置的激活应该增加。通过计算刺激和相反位置之间的激活差异,可以评估基于特征的调制的空间特异性(右)。如果运动图中注意运动条件的激活差异(刺激相反)较大,则增强是局部的。然而,如果关注颜色和运动条件之间的激活差异相似,则增强在特征维度图上是全局的。
来自扩散模型的大量合成视频对信息安全性和真实性构成威胁,从而导致对生成的内容检测的需求不断增长。但是,现有的视频级检测算法主要集中于检测面部伪造,并且通常无法识别具有各种语义范围的扩散生成的内容。为了推进视频取证领域,我们提出了一种创新算法,称为多模式检测(MM-DET),用于检测扩散生成的视频。mm-det利用了大型多模式模型(LMM)的深刻感知和全面能力,通过从LMM的多模式空间中产生多模式伪造表示(MMFR),从而增强了其检测到其不看见的伪造内容的能力。此外,MM-DET还利用了一个内在的框架注意(IAFA)机制来在时空结构域中进行特征增强。动态融合策略有助于改善融合的伪造代表。此外,我们在广泛的伪造视频中构建了一个称为扩散视频取证(DVF)的综合扩散视频数据集。mm-det在DVF中实现了最先进的性能,证明了我们的算法的有效性。源代码和DVF均可在链接中获得。
在蒙版的图像建模(MIM)中,存在两个主要方法:像素MIM和潜在MIM,每个方法分别利用不同的重建目标,原始像素和潜在表示。Pixel Mim倾向于捕获低级视觉细节,例如颜色和纹理,而潜在MIM专注于对象的高级语义。但是,每种方法的这些独特的优势可以导致依赖特定视觉特征的任务中的次优性能。为了解决这一限制,我们提出了Pilamim,这是一个统一的框架,结合了像素MIM和潜在MIM以整合其互补优势。我们的方法使用单个编码器以及两个不同的解码器:一个用于预测像素值,另一种用于潜在表示,可确保捕获高级和低级视觉特征。我们将[Cls]令牌进一步集成到重建过程中,以汇总全局上下文,从而使模型能够捕获更多的语义信息。广泛的实验表明,在大多数情况下,Pilamim优于MAE,I-JEPA和BOOTMAE等关键基线,证明了其在提取更丰富的视觉表示方面的有效性。该代码可在https://github.com/joonmy/pilamim.git上找到。
人类的大脑可以通过动态变化的环境不断地获取和学习新技能和知识,而不会忘记以前学习的信息。这样的能力可以选择性地将一些重要且最近看到的信息转移到大脑的持续知识区域。受到这种直觉的启发,我们提出了一种基于内存的新方法,用于持续学习中的图像重建和重构,由临时和不断发展的记忆组成,并具有两种不同的存储策略,并涉及临时和永久记忆。临时内存旨在保留最新信息,而不断发展的内存可以动态增加其功能,以保留永久的知识信息。这是通过提出的内存扩展机制来实现的,该机构有选择地将这些数据样本从临时存储器转移到根据信息新颖性标准在演变的存储器中删除的新群集。这种机制促进了进化记忆中群集之间的知识多样性,从而通过使用紧凑的mem-ory容量来捕获更多多样化的信息。此外,我们提出了一种两步优化策略,用于培训变分自动编码器(VAE)以实现生成和表示学习任务,该策略使用两个优化路径分别更新了生成器和推理模型。这种方法导致了一代和重建性能之间的取舍。源代码和补充材料(SM)可在https://github.com/dtuzi123/demc上找到。我们从经验和理论上表明,所提出的方法可以学习有意义的潜在表示,同时从不同领域产生各种图像。
可解释人工智能 (XAI) 最近已成为一个非常活跃的领域,这主要是由于神经网络等黑箱模型的广泛发展。最新技术定义了最近的 XAI 目标,并提出了具体方法。在 XAI 和其他领域之间可以找到隐式链接,尤其是与知识和神经网络相关的领域。我们在此旨在强调这些隐式链接。我们对两个领域的研究工作进行了叙述性回顾:(i)知识领域,重点关注知识发现和表示,以及(ii)表示学习。我们讨论了这些领域与 XAI 之间的相似性和连接点。我们得出结论,为了使黑匣子更加透明,XAI 方法应该受到更多启发,并利用知识和表示学习领域的过去和最近的工作。通过本文,我们为多学科研究人员和人工智能专家以及人工智能知识渊博的用户提供了 XAI 领域的切入点。
统计推断证据范式的扩展,而 Shafer 将这些上限和下限概率解释为可信度和信念函数,而不参考具有一对多映射的底层概率空间。这样获得的方法被 Shafer 称为证据理论。它专门用于表示和合并不可靠的证据。相反,由于对随机变量的观察不完整,Dempster 设置中的上限和下限概率也可能模拟未知的概率。第二个想法是使用(凸)概率集,要么是因为统计模型不为人所知,要么是因为生成主观概率的通常协议发生了改变,承认与风险事件相关的彩票的买卖价格可能不同。后者是沃利低预测和不精确概率理论的基础。事实证明,沃利的框架在数学上比 Dempster-Shafer 理论更通用。本章介绍了贝叶斯概率论的这些概括。
个体在遗传编程(GP)中的表示对进化过程有很大的影响。在这项工作中,我们研究了三种语法引导的GP(GGGP)方法的进化过程,无上下文的语法GP(CFG-GP),语法进化(GE)和结构化语法演化(SGE),在复杂的,现实的,现实的,现实的,现实的问题的问题上,可以预测两个小时的人的Glucose水平。我们的分析通过(1)比较复杂基准上的所有三种方法,(2)在同一框架中实现方法,允许更公平的比较,以及(3)分析性能以外的进化过程。我们得出结论,代表选择更具影响力,最大程度更高,而CFG-GP更好地探索了更深树的搜索空间,从而实现了更好的结果。此外,我们发现CFG-GP更多地依赖于功能构建,而GE和SGE则更多地依赖于功能选择。此外,我们以两种方式更改了GGGP方法:使用ϵ-二素激酶选择,该方法解决了CFG -GP的过度拟合问题;并受到复杂树木的惩罚,以创建更多可解释的树。将ϵ -lexicase选择与CFG -GP相结合的表现最好。最后,我们评估了初始化方法在
符号(例如数值序列,化学公式和表格定界符)广泛存在,在与符号相关的任务中扮演重要角色,例如抽象推理,化学培养物预测和表格提问。与基于自然语言表达式的任务相比,大型语言模型(LLMS)在理解和理性的基于符号的表示方面存在局限性,因此他们很难处理与符号相关的问题。在本文中,我们提出了符号到语言(S2L),该方法将基于符号的表示形式转换为基于语言的代表,为推理过程中语言模型提供了宝贵的信息。我们发现,对于封闭源和开放源LLM,可以通过合并基于语言的代表来在很大程度上增强解决符号问题的能力。例如,通过为GPT-4使用S2L,可以进行+21的实质性改进。9%和+9。分别用于1D ARC和DYCK语言任务的准确性5%。 在其他六个一般符号相关的任务(例如表理解和推文分析)中也有一致的改进。 我们在https://github.com/thunlp-mt/symble2language 1中重新租用GPT日志。分别用于1D ARC和DYCK语言任务的准确性5%。在其他六个一般符号相关的任务(例如表理解和推文分析)中也有一致的改进。我们在https://github.com/thunlp-mt/symble2language 1中重新租用GPT日志。
摘要 由于人工智能主要关注知识表示和推理,它必然要处理各种处理不确定性的框架:概率论,以及更新的方法:可能性理论、证据理论和不精确概率。本章的目的是提供一个介绍性的概述,揭示表示不确定性的两个基本框架的具体特征:概率论和可能性理论,同时强调表示不确定性的任务所面临的主要问题。这一目的还提供了定位相关主题的机会,例如粗糙集和模糊集,它们分别受到考虑语言选择引起的表示粒度和自然语言谓词的渐进性的驱动。此外,本概述还简要介绍了其他理论表示框架,例如形式概念分析、条件事件和排名函数,以及可能性逻辑,与此处讨论的不确定性框架有关。本卷的下一章将讨论更复杂的框架:信念函数和不精确概率。
大型语言模型 (LLM) 和人类无需直接监督即可获得有关语言的知识。LLM 通过特定的训练目标来实现这一点,而人类则依靠感官体验和社交互动。这种相似性在 NLP 和认知科学中产生了一种感觉,即系统地了解 LLM 如何获取和使用编码知识可以为研究人类认知提供有用的见解。相反,认知科学领域的方法和发现偶尔会启发语言模型的开发。然而,机器和人类处理语言的方式(在学习机制、使用的数据量、基础和对不同模态的访问方面)的差异使得直接翻译见解具有挑战性。这本编辑卷的目的是创建一个沿着这条研究方向交流和辩论的论坛,邀请人们进一步阐明人类和 LLM 之间的异同。