摘要及其最近的发展,大型语言模型(LLM)表现出一定程度的心理理论(TOM),这是一种与我们的意识思维有关的复杂认知能力,使我们能够推断他人的信念和观点。虽然人类的TOM能力被认为是源自广泛相互联系的脑网络的神经活性,包括背侧内侧前额叶皮层(DMPFC)神经元的神经活性,但LLM与TOM相似的LLM能力的确切过程仍然很广。在这项研究中,我们从DMPFC神经元中依靠人类TOM的DMPFC神经元中汲取了灵感,并采用了类似的方法来检查LLMS是否表现出可比的特征。令人惊讶的是,我们的分析揭示了两者之间的显着相似之处,因为LLM中隐藏的嵌入(人造神经元)开始对真实或虚假的belief试验表现出很大的响应能力,这表明它们代表他人的观点的能力。这些人工嵌入响应与LLMS在TOM任务中的性能密切相关,该功能取决于模型的大小。此外,可以使用整个嵌入来准确地解码对方的信念,这表明在人群水平上存在嵌入的TOM能力。一起,我们的发现揭示了LLMS嵌入的新兴特性,该特性对TOM特征的响应修改了其活动,提供了人工模型与人脑中神经元之间平行的初步证据。
用于文本分析的抽象数字工具长期以来对于数字化库集合的可访问性和可访问性至关重要。最近的计算机视觉进步引入了类似的视觉材料功能,基于深度学习的嵌入显示了分析视觉遗产的希望。鉴于许多书籍还具有文本外,还具有视觉效果,因此利用这些突破对于使图书馆的收藏馆开放和易于访问至关重要。在这项工作中,我们提出了概念验证图像搜索应用程序,用于探索挪威国家图书馆1900年前的书籍中的图像,比较视觉变压器(VIT),对比性语言图像预训练(CLIP)和语言损失的语言损失 - 图像预训练(Siglip)(Siglip)的嵌入图像检验和分类。我们的结果表明,该应用程序在精确的图像检索中表现良好,在检索和分类任务中,siglip嵌入片段略优于剪辑和VIT。此外,基于siglip的图像分类可以有助于从数字化管道中清洁图像数据集。
图 3:整个大脑和语言(AG、PTL 和 IFG)、视觉(EVC、SV 和 MT)和听觉皮层(AC)的多个 ROI 中的多模态和个体模态特征的视频和音频模态的平均归一化大脑对齐。误差线表示参与者平均值的标准误差。∗ 表示多模态嵌入明显优于单模态视频模型(VM)的情况,即 p ≤ 0.05。∧ 表示多模态嵌入明显优于单模态语音模型(SM)的情况,即 p ≤ 0.05。3
[研究兴趣] 知识图谱嵌入 (KGE) 是大型知识图谱的流行表示,因为它们的潜在特性使其适合现代机器学习算法。尽管 KGE 很受欢迎,但它们并非没有局限性:它们通常是黑匣子,并且不能简单地扩展到处理其他数据模式,例如文本、视频或图像。这两个观察结果限制了它们对任意知识图谱和用例的适用性。在这个项目中,我们旨在解决这两个限制。我们设想利用 LLM 的语义能力,使知识图谱更易于与任意文本内容和助手配合使用。我们希望将相同的技术推广到其他数据模式。为了使嵌入可解释,我们设想在嵌入中嵌入“推理方案”,例如路径或规则,这将指导训练并作为解释。作为初始用例,我们计划在引文网络上测试我们的技术,以回答专业和科学资料中的复杂查询。将在途中确定进一步的用例。[团队名称] LACODAM
摘要:我们提出了一种基于多视图和多代表(MV – MR)的自我监督学习和知识蒸馏的新方法。MV-MR是基于从增强和非增强视图中可学习的嵌入之间依赖性的最大化,从增强视图中可学习的嵌入与从非杰出视图中的多个非可学习的表示之间最大化依赖性。我们表明,所提出的方法可用于有效的自我监督分类和模型不合时宜的知识蒸馏。与其他自我监督技术不同,我们的方法不使用任何对比度学习,聚类或停止梯度。MV – MR是一个通用框架,允许通过将图像多代表作为正规化器的图像使用,将约束纳入学习嵌入。所提出的方法用于知识蒸馏。MV – MR在线性评估设置中提供了STL10和CIFAR20数据集的最先进的自我监督性能。我们表明,使用基于剪辑模型的拟议知识蒸馏预测的低复杂性RESNET50模型可实现STL10和CIFAR100数据集的最新性能。
摘要。最近的方法表明,诸如剪辑之类的大规模视觉模型可以改善语义分割性能。这些方法通常是针对像素级视觉语言对准的,但通常依赖于剪辑中的低分辨率图像特征,从而导致沿边界的类歧义。此外,剪辑文本嵌入中的全局场景代表与本地和详细的像素级特征直接相关,从而使有意义的对齐变得更加困难。为了解决这些局限性,我们介绍了MTA-CLIP,这是一个采用面具级别视觉语言对准的新型框架。具体来说,我们首先提出了掩码文本解码器,该解码器使用夹夹语言模型使用丰富的文本数据来增强掩码代表。接下来,它使用掩码到文本对比度学习将蒙版表示与文本嵌入一致。此外,我们介绍了蒙版 - 文本提示学习,利用多个上下文特定的提示文本嵌入来捕获跨口罩的各种班级表示。总体而言,MTA-CLIP可以实现最先进的工作,在标准基准数据集,ADE20K和CityScapes上平均超过2.8%和1.3%。
摘要 文本检索和语义分割的应用具有很大的潜力,可以改变法律研究行业的格局,使任何人都可以更轻松地获取和负担得起相关信息。在本工作论文中,我们介绍了一些新方法,作为人工智能法律援助 (2020) 的一部分,这是信息检索评估论坛-2020 的一个重要活动。在本文的第一部分,我们使用基于 BM 25、主题嵌入和 Law2Vec 嵌入的方法确定了所提供查询的相关先前案例和法规。对于第二部分,我们使用 BERT 将法律案件文件语义分割为七个预定义标签或“修辞角色”。在第一个任务中,我们在 P@10 和 BPREF 指标中的表现使我们位居前两名。另一方面,我们针对第二个任务的 BERT 实现获得了 .479 的宏精度,仅比表现最佳的方法低 .027。关键词 1 nlp、词嵌入、主题嵌入、bm25、先例检索、信息检索、法规检索、bert、修辞角色、分类、法律 1。介绍
摘要 在药物发现中,生成具有所需生物活性的分子引起了越来越多的关注。先前的分子生成模型被设计为以化学为中心的方法,几乎不考虑药物-靶标相互作用,从而限制了它们的实际应用。在本文中,我们旨在以靶标感知的方式生成分子药物,以将生物活性和分子设计联系起来。为了解决这个问题,我们从几个公开可用的数据集中编制了一个基准数据集,并在统一的框架中构建基线。基于基于流的分子生成模型的最新优势,我们提出了 SiamFlow,它强制流适应潜在空间中目标序列嵌入的分布。具体而言,我们采用对齐损失和均匀损失来使目标序列嵌入和药物图嵌入达成一致,同时避免崩溃。此外,我们通过学习目标序列嵌入的空间将对齐形式化为一对多问题。实验定量表明,我们提出的方法可以在潜在空间中学习有意义的表示,从而生成目标感知的分子图,并为药物发现中连接生物学和化学提供了一种替代方法。
图 2:预训练的无监督 CodonBERT 模型学习到的遗传密码和进化同源性信息。使用 UMAP (McInnes et al., 2020) 将高维嵌入投影到二维空间。A–B:从预训练的 CodonBERT 模型投影的密码子嵌入。每个点代表具有不同上下文的密码子,其颜色对应于密码子的类型 ( A ) 或氨基酸的类型 ( B )。C:从预训练的 CodonBERT 模型投影的序列嵌入。每个点都是一个 mRNA 序列,其颜色代表序列标签。D:从预训练的 Codon2vec 模型投影的密码子嵌入。每个点代表一个密码子,其颜色代表对应的氨基酸。
解决方案:自定义词嵌入和分层分类 为了创建针对其产品定制的语言搜索,Credit Mutuel 首先在 3-4 个月的时间内收集了客户顾问面临的所有问题,然后整理了这些问题的答案(这又花了 4 个月的时间),并在目前生产的 11 个业务领域中重复此工作。然后,他们训练了一个用于自定义词嵌入的深度学习模型,并用它来训练每个领域的单独支持向量机 (SVM) 模型,以选择最有可能解决每个问题的答案。他们还构建了数万个对话步骤来支持收集初始问题中任何缺失的信息。初始领域分类(在此设置中可能只关注简短、简单的