不祥事が支持を強める理由を読み解く-物語性がもたらす評価の変動-
几乎每天,新闻或社交媒体上都会报道某人的丑闻。根据事件的声誉和规模,它可能会引起强烈反应,并使人气突然下降,而目标面临失去工作等严重后果的情况也并不少见。然而,也有尽管发生同样的丑闻,但对某人的支持率实际上却增加了的情况。这一奇怪现象的出现背景是什么?其中一个原因就是“故事”的视角。这些“故事”对人们的情绪有着深远的影响,对改变态度和转变意识有着重大影响。人类思维有两种模式:逻辑模式和叙述模式。1前者是基于规则和数值标准来判断“丑闻是不可接受的行为”的思维过程。而后者则是根据故事和背景来判断。利用故事的影响来改变态度的一个例子是“叙事广告”。叙事广告不仅仅是电视广告等广告媒体中传达产品信息的一
IEEE Transactions on Neural Networks and Learning Systems, Volume 35, Number 12, November 2024
1) 场景理论、复杂性和基于压缩的学习与泛化调查作者:Roberto Rocchetta、Alexander Mey、Frans A. Oliehoek页数:16985 - 169992) 深度学习在视觉定位与映射中的应用:调查作者:Changhao Chen、Bing Wang、Chris Xiaoxuan Lu、Niki Trigoni、Andrew Markham页数:17000 - 170203) 实例分割模型稳健性的基准测试作者:Yusuf Dalva、Hamza Pehlivan、Said Fahri Altındiş、Aysegul Dundar页数:17021 - 170354
Search enterprise data assets using LLMs backed by knowledge graphs
在本文中,我们将介绍一种生成式 AI 驱动的语义搜索解决方案,使业务用户能够快速准确地在各种企业数据源中找到相关数据资产。在此解决方案中,我们集成了托管在 Amazon Bedrock 上的大型语言模型 (LLM),这些模型由基于 Amazon Neptune 构建的知识图谱派生的知识库提供支持,以创建强大的搜索范例,使基于自然语言的问题能够集成对存储在 Amazon Simple Storage Service (Amazon S3) 中的文档、托管在 AWS Glue 数据目录中的数据湖表以及 Amazon DataZone 中的企业资产的搜索。
Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?
这篇论文被 EMNLP 2024 的第九届机器翻译会议 (WMT24) 接受。口语的韵律,包括重音、语调和节奏等特征,会显著影响底层语义,从而也会影响其文本翻译。尽管如此,韵律很少在语音到文本翻译 (S2TT) 系统的背景下进行研究。特别是,端到端 (E2E) 系统被认为非常适合韵律感知翻译,因为它们在做出翻译决策时可以直接访问语音信号,但……
Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning
这篇论文被 NeurIPS 2024 的自监督学习 - 理论与实践 (SSLTP) 研讨会接受。基于图像的联合嵌入预测架构 (IJEPA) 为使用蒙版图像建模框架进行表示学习提供了一种有吸引力的蒙版自动编码器 (MAE) 替代方案。IJEPA 通过在潜在空间而非输入空间中进行预测来驱动表示以捕获有用的语义信息。然而,IJEPA 依赖于精心设计的上下文和目标窗口来避免表示崩溃。IJEPA 中的编码器模块无法自适应地调节类型……
IEEE Transactions on Artificial Intelligence, Volume 5, Issue 10, October 2024
1) 基于 Transformer 的计算机视觉生成对抗网络:综合调查作者:Shiv Ram Dubey、Satish Kumar Singh页数:4851 - 48672) 数据驱动技术在智能家居社区规划、需求侧管理和网络安全中的应用作者:Dipanshu Naware、Arghya Mitra页数:4868 - 48833) 针对物体检测系统的中间人攻击作者:Han Wu、Sareh Rowlands、Johan Wahlström页数:4884 - 48924) 夜间色热语义分割的测试时间自适应作者:Yexin Liu、Weiming Zhang、Guoyang Zhao、Jinjing
Zero-Shot Localization with CLIP-Style Encoders
我们如何才能看到视觉编码器所看到的内容?Stephan Widua 在 Unsplash 上的照片想想您最喜欢的预训练视觉编码器。我假设您选择了 CNN(卷积神经网络)或 ViT(视觉变换器)的某种变体。编码器是将图像映射到 d 维向量空间的函数。在此过程中,图像被转换为特征图序列:作者提供的图片。特征图 (w × h × k) 可以被认为是收集的 k 维补丁嵌入的 2D 数组,或者等效地,具有 k 个通道 f₁, … fₖ 的粗略图像 (w × h)。CNN 和 ViT 都以各自的方式将输入图像转换为特征图序列。当图像穿过其层时,我们如何才能看到视觉编码器所看到的内容?零样本定位方法旨在
A Graph Too Far: Graph RAG Doesn’t Require Every Graph Tool
不要使用图形 DB、QL 或图形分析使事情复杂化。知识图谱中的冒险:迷失在无尽的文档中。由 Brian Godsey 使用 DALL-E 生成。当 RAG 开发人员决定尝试图形 RAG(即构建知识图谱并将其集成到他们的 RAG(检索增强生成)系统中)时,根据互联网,他们有很多选择。有很多文章、指南和操作方法介绍了使用图形 RAG 和一般图形的不同工具。因此,一些开发人员直接开始,认为他们需要集成和配置一长串图形工具和技术才能正确执行图形 RAG。当搜索如何入门时,你通常会发现一些文章建议你需要以下部分或全部内容:知识图谱——连接语义搜索无法捕获的关键术语和概念关键字和实体提取工具——用于构建知
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
*平等贡献者当前的多模态和多任务基础模型(如 4M 或 UnifiedIO)显示出了良好的结果,但在实践中,它们接受不同输入和执行不同任务的开箱即用能力受到它们所训练的模态和任务数量(通常相当少)的限制。在本文中,我们通过在数十种高度多样化的模态上对其进行训练以及在大规模多模态数据集和文本语料库上进行联合训练,显著扩展了 4M 的功能。这包括对几种语义和几何模态、特征图的训练......
Scalable Private Search with Wally
本文介绍了 Wally,这是一个支持对大型数据库进行高效语义和关键字搜索查询的隐私搜索系统。当有足够多的客户端进行查询时,Wally 的性能明显优于以前的系统。在以前的隐私搜索系统中,对于每个客户端查询,服务器必须对每个数据库条目执行至少一次昂贵的加密操作。因此,性能会随着数据库中条目的数量而成比例下降。在 Wally 中,我们消除了这一限制。具体来说,对于每个查询,服务器都会执行加密……
Automate Video Chaptering with LLMs and TF-IDF
将原始记录转换为结构良好的文档照片由 Jakob Owens 在 Unsplash 上拍摄视频章节划分是将视频分割成不同章节的任务。除了像 YouTube 章节那样用作导航辅助之外,它还是一系列下游应用的核心,从信息检索(例如 RAG 语义分块)到引用或摘要。在最近的一个项目中,我需要自动执行此任务,但对可用的选项有限感到惊讶,尤其是在开源领域。虽然一些专业工具或付费 API 提供了此类服务,但我找不到任何提供足够强大和准确解决方案的库或教程。如果您知道任何内容,请在评论中分享!如果您想知道为什么不简单地将记录复制并粘贴到大型语言模型 (LLM) 中并要求提供章节标题,那么由于两个原因,这样做
在计算机视觉中,主干架构对于图像识别、对象检测和语义分割任务至关重要。这些主干从图像中提取局部和全局特征,使机器能够理解复杂的模式。传统上,卷积层一直是这些模型的主要组成部分,但最近的进展结合了注意力机制,这增强了模型捕捉的能力。文章 LowFormer:一种高效的视觉主干模型,可在不牺牲准确性的情况下优化移动和边缘设备的吞吐量和延迟,首次出现在 AI Quantum Intelligence 上。
How to Implement Graph RAG Using Knowledge Graphs and Vector Databases
作者提供的图片关于实现检索增强生成 (RAG)、语义搜索和推荐的分步教程本教程的随附代码在此处。我的上一篇博客文章是关于如何在企业级一起实现知识图谱 (KG) 和大型语言模型 (LLM)。在那篇文章中,我介绍了 KG 和 LLM 目前交互的两种方式:LLM 作为构建 KG 的工具;以及 KG 作为 LLM 或 GenAI 应用程序的输入。下图显示了集成的两个方面以及人们将它们一起使用的不同方式。作者提供的图片在这篇文章中,我将重点介绍 KG 和 LLM 一起使用的一种流行方式:使用知识图谱的 RAG,有时称为 Graph RAG、GraphRAG、GRAG 或 Semantic RAG。检索增
计算机视觉使机器能够解释和理解来自世界的视觉信息。这包括各种任务,例如图像分类、对象检测和语义分割。通过开发先进的神经网络架构,特别是卷积神经网络 (CNN) 和最近的 Transformers,推动了该领域的创新。这些模型已经展示了显著的效果。NVIDIA 研究人员推出 MambaVision:专为视觉应用量身定制的新型混合 Mamba-Transformer 主干首次出现在 AI Quantum Intelligence 上。
Code Embedding: A Comprehensive Guide
代码嵌入是一种将代码片段表示为连续空间中的密集向量的变革性方式。这些嵌入捕获了代码片段之间的语义和功能关系,从而为 AI 辅助编程提供了强大的应用程序。与自然语言处理 (NLP) 中的词嵌入类似,代码嵌入将相似的代码片段在向量空间中紧密定位在一起,[…] 文章《代码嵌入:综合指南》首先出现在 Unite.AI 上。
Unlocking the Potential of Clinical Natural Language Processing (NLP) in Healthcare
自然语言处理 (NLP) 使计算机能够理解人类语言。它使用算法和机器学习来解释文本、音频和其他媒体格式。标记化方法将我们在人类文本中提供的信息分成预处理中的较小语义单元。NLP 在医疗保健领域的整合特别侧重于生物医学方面。[…]
IEEE Transactions on Artificial Intelligence, Volume 5, Issue 6, June 2024
1) 特邀编辑:非平稳数据的 AutoML作者:Ran Cheng、Hugo Jair Escalante、Wei-Wei Tu、Jan N. Van Rijn、Shuo Wang、Yun Yang页数:2456 - 24572) 用于异构遥感图像中无监督变化检测的自引导自动编码器作者:Jiao Shi、Tiancheng Wu、Alex Kai Qin、Yu Lei、Gwanggil Jeon页数:2458 - 24713) 用于实时追踪水污染的学习驱动动态多模态优化算法作者:Xuesong Yan、Xing Guo、Jin Chen、Chengyu Hu、Wenyin Gong、Liang