模态关键词检索结果

IEEE 计算智能新兴主题学报,第 8 卷,第 4 期,2024 年 8 月

IEEE Transactions on Emerging Topics in Computational Intelligence, Volume 8, Issue 4, August 2024

1) 深度学习视频超分辨率综述作者:Arbind Agrahari Baniya、Tsz-Kwan Lee、Peter W. Eklund、Sunil Aryal页数:2655 - 26762) 神经动力学优化综述作者:Youshen Xia、Qingshan Liu、Jun Wang、Andrzej Cichocki页数:2677 - 26963) 用于知识图谱补全的图形结构增强预训练语言模型作者:Huashi Zhu、Dexuan Xu、Yu Huang、Zhi Jin、Weiping Ding、Jiahui Tong、Guoshuang Chong页数:2697 - 27084) 通过基

ProcTag:一种面向数据的 AI 方法,用于评估文档指令数据的有效性

ProcTag: A Data-Oriented AI Method that Assesses the Efficacy of Document Instruction Data

有效评估文档指令数据以训练文档视觉问答 (VQA) 中的大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 是一项重大挑战。现有方法主要是面向文本的,侧重于指令的文本内容而不是执行过程,这限制了它们全面评估质量和功效的能力。文章 ProcTag:一种评估文档指令数据功效的数据导向型 AI 方法首先出现在 AI Quantum Intelligence 上。

我们准备好进行多图像推理了吗?推出 VH:Visual Haystacks 基准测试!

Are We Ready for Multi-Image Reasoning? Launching VHs: The Visual Haystacks Benchmark!

人类擅长处理大量视觉信息,这是实现通用人工智能 (AGI) 的关键技能。几十年来,人工智能研究人员开发了视觉问答 (VQA) 系统来解释单个图像中的场景并回答相关问题。虽然基础模型的最新进展大大缩小了人类和机器视觉处理之间的差距,但传统的 VQA 仅限于一次推理单个图像,而不是整个视觉数据集合。这种限制在更复杂的场景中带来了挑战。例如,辨别医学图像集合中的模式、通过卫星图像监测森林砍伐、使用自动导航数据绘制城市变化、分析大型艺术收藏中的主题元素或从零售监控录像中了解消费者行为等挑战。这些场景中的每一个不仅需要对数百或数千张图像进行视觉处理,还需要对这些发现进行跨图像处理。为了弥补这一差距,本项

Google DeepMind 参加 ICML 2024

Google DeepMind at ICML 2024

探索 AGI、扩展的挑战和多模态生成 AI 的未来

大型语言模型的 MOE 和 MOA

MOE & MOA for Large Language Models

向专家小组寻求建议图片由作者提供(AI 生成 leonardo.ai)大型语言模型 (LLM) 无疑席卷了科技行业。它们的迅速崛起得益于来自维基百科、网页、书籍、大量研究论文以及我们喜爱的社交媒体平台的用户内容的大量数据。数据和计算密集型模型一直在狂热地整合来自音频和视频库的多模态数据,并且数月来一直在使用数万个 Nvidia GPU 来训练最先进的 (SOTA) 模型。所有这些都让我们怀疑这种指数级增长是否能持续下去。这些 LLM 面临的挑战很多,但让我们在这里探讨一些。成本和可扩展性:较大的模型可能需要花费数千万美元来训练和服务,成为日常应用程序采用的障碍。 (参见 GPT-4 的训练成本

将多重表示与多重边缘匹配间隙进行对比

Contrasting Multiple Representations with the Multi-Marginal Matching Gap

学习可通过多个(k≥3k\geq 3k≥3)视图或模态看到的复杂对象的有意义的表示是机器学习的核心任务。现有方法使用最初用于成对视图的损失,并将其扩展到 kkk 个视图,方法是实例化 12k(k−1)\tfrac12k(k-1)21​k(k−1) 损失对,或通过使用减少的嵌入,遵循一对平均\textit{一对平均}一对平均策略。我们提出了多边际匹配间隙 (M3G),这是一种借用多边际最优传输 (MM-OT) 理论工具的损失……

计算机视觉和对象检测有什么新东西?

What’s New in Computer Vision and Object Detection?

是否想写出您的第一篇 TDS 文章?我们始终欢迎新作者的投稿。在开始本周的精彩文章选集之前,我们想花点时间感谢所有读者、作者和更广泛社区的成员,感谢他们帮助我们实现一个重要的里程碑,因为我们的关注者指望 Medium 刚刚实现……我们非常激动——并感谢所有支持我们使 TDS 成为蓬勃发展、以学习为重点的出版物的人。祝愿未来有更多的成长和探索!回到我们的常规业务,我们选择了三篇最近的文章作为本周的亮点,重点介绍了计算机视觉和物体检测等令人兴奋的领域的尖端工具和方法。随着多模态模型的覆盖范围不断扩大,自动驾驶、医疗保健和农业等用例成为主流,数据和机器学习从业者必须随时了解最新发展。(如果您现在对其

SenseNova 5.5 – 中国首个实时法学硕士课程击败 GPT-4o

SenseNova 5.5 – China’s first real-time LLM beats GPT-4o

中国 AI 开发商 SenseTime 发布了其升级版多模态 SenseNova 5.5 模型,并声称它代表了最先进的技术。升级后的模型是在 SenseNova 5 发布几个月后推出的,SenseTime 表示 SenseNova 5 与 GPT-4 Turbo 不相上下。据报道,升级后的 600B 参数 SenseNova 5.5 整体性能提高了 30%。该公司发布的基准测试分数显示,其模型击败了 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5 模型。SenseNova 5.5 擅长的基准测试是中国模型通常使用的基准测试。如果他们使用 GPQA、Humaneva

兴奋剂:一种测试异常值检测器的技术

Doping: A Technique to Test Outlier Detectors

使用精心制作的合成数据来比较和评估异常值检测器本文继续我的异常值检测系列,继“计数异常值检测器”和“频繁模式异常值因子”之后,还提供了我书“Python 中的异常值检测”的另一段摘录。在本文中,我们将研究测试和评估异常值检测器的问题,这是一个众所周知的难题,并提出一种解决方案,有时称为掺杂。使用掺杂,实际数据行(通常)被随机修改,但修改方式可以确保它们在某些方面可能是异常值,因此应该由异常值检测器检测到。然后,我们可以通过评估探测器检测掺杂记录的能力来评估探测器。在本文中,我们专门研究表格数据,但同样的想法也可以应用于其他模态,包括文本、图像、音频、网络数据等。测试和评估其他类型的模型如果您熟

连接数据点

Connecting the Data Dots

为了加速研究计划,科学家可以利用一个汇集超过 14 PB 多模态数据的平台。

Репортаж с PHDays Fest 2: эксперт УЦСБ рассказал о возможностях использования ИИ в ИБ

Репортаж с PHDays Fest 2: эксперт УЦСБ рассказал о возможностях использования ИИ в ИБ

5月23日,在莫斯科国际网络节Positive Hack Days上,加州大学圣巴巴拉分校科学技术工作副主任尼古拉·多穆霍夫斯基(Nikolai Domukhovsky)作了题为《为何人工智能在信息安全以外的所有领域都取得胜利》的报告。事实证明,这个话题与网络安全专家息息相关,大厅里几乎没有空座位。演讲一开始,尼古拉谈到了过去10年人工智能的主要成功。人工智能成果已经从基础研究的范畴转变为急需的应用解决方案的地位,没有它我们将无法想象我们的生活。现在正处于进步的顶峰,大型语言模型也正在变得多模态——神经网络可以根据你的描述构建图像、纠正它、编写文本等。许多人利用这些机会,不幸的是,这些技术已经

视频周五:带刀的机器人

Video Friday: Robots With Knives

来自日本横滨 IEEE 国际机器人与自动化会议 (ICRA) 的问候!希望您喜欢我们在 TikTok、YouTube 和 Instagram 上的短视频。它们只是我们对 ICRA 的深入报道的预览,在接下来的几周内,我们会为您准备大量文章和视频。在今天的“视频星期五”版本中,我们为您带来了会议上展示的十几个最有趣的项目。欣赏今天的视频,并敬请期待更多 ICRA 帖子!未来几个月即将举行的机器人活动:RoboCup 2024:2024 年 7 月 17 日至 22 日,荷兰埃因霍温SICSR 2024:2024 年 10 月 23 日至 26 日,丹麦奥登塞Cybathlon 2024:2024

我们的下一代模型: Gemini 1.5

Our next-generation model: Gemini 1.5

该模型的性能显著增强,在跨模态的长上下文理解方面取得了突破。

多种人工智能模型帮助机器人更透明地执行复杂计划

Multiple AI models help robots execute complex plans more transparently

多模态系统使用经过语言、视觉和动作数据训练的模型来帮助机器人制定和执行家庭、建筑和制造任务的计划。

谷歌的 Gemini AI 将超越 ChatGPT

Google’s Gemini AI is going to surpass ChatGPT

突破性的 NLP 模型 Gemini AI 将超越现有基准。凭借其多模态能力、跨各个领域的可扩展性以及在 Google 生态系统中的集成潜力,Gemini AI 代表了 AI 技术的重大飞跃。

IEEE 人工智能学报,第 5 卷,第 6 期,2024 年 6 月

IEEE Transactions on Artificial Intelligence, Volume 5, Issue 6, June 2024

1) 特邀编辑:非平稳数据的 AutoML作者:Ran Cheng、Hugo Jair Escalante、Wei-Wei Tu、Jan N. Van Rijn、Shuo Wang、Yun Yang页数:2456 - 24572) 用于异构遥感图像中无监督变化检测的自引导自动编码器作者:Jiao Shi、Tiancheng Wu、Alex Kai Qin、Yu Lei、Gwanggil Jeon页数:2458 - 24713) 用于实时追踪水污染的学习驱动动态多模态优化算法作者:Xuesong Yan、Xing Guo、Jin Chen、Chengyu Hu、Wenyin Gong、Liang

ECOLE:环境驱动的概念学习

ECOLE: Environment-driven Conceptual Learning

项目负责人:William Corvey 博士 赞助组织:DARPA网站:https://www.darpa.mil/program/environment-driven-conceptual-learning 项目概要:国防部和情报界需要能够稳健且自动分析大量多模态数据的计算系统。此外,

Perceiver AR:通用、长上下文自回归生成

Perceiver AR: general-purpose, long-context autoregressive generation

我们开发了 Perceiver AR,这是一种自回归、模态无关的架构,它使用交叉注意将长距离输入映射到少量潜在输入,同时保持端到端因果掩蔽。Perceiver AR 可以直接处理十万多个标记,无需手工制作的稀疏模式或记忆机制即可实现实用的长上下文密度估计。