多模关键词检索结果

ANN 的每日 Aero-Linx (09.08.24)

ANN's Daily Aero-Linx (09.08.24)

Aero Linx:MQ-9 Reaper Reaper 主要用作情报收集资产,其次用于对付动态执行目标。鉴于其较长的滞空时间、宽范围传感器、多模式通信套件和精确武器,它提供了对高价值、短暂且时间敏感的目标进行打击、协调和侦察的独特能力。

UI-JEPA:通过屏幕上的用户活动主动感知用户意图

UI-JEPA: Towards Active Perception of User Intent Through Onscreen User Activity

从一系列用户界面 (UI) 操作中生成用户意图是全面理解 UI 的核心挑战。多模态大型语言模型 (MLLM) 的最新进展已导致该领域取得了实质性进展,但它们对大量模型参数、计算能力和高延迟的要求使其不适用于需要轻量级、低延迟或高度隐私的设备解决方案的场景。此外,缺乏高质量的数据集阻碍了此类轻量级模型的开发。为了应对这些挑战,我们提出了 UI-JEPA,一种……

AIAI 波士顿 2024:三个共同举办的峰会探索尖端 AI

AIAI Boston 2024: Three co-located summits exploring cutting-edge AI

此次会议在马萨诸塞州波士顿举行,通过三场同地峰会,为深入研究人工智能技术前沿提供了独特的机会。该活动将于 2024 年 10 月 16 日至 18 日在波士顿海港区威斯汀酒店举行,届时将举办三场同地峰会,每场峰会都侧重于 AI 的不同方面:首席 AI 官峰会(2024 年 10 月 16 日):为 C 级高管提供执行 AI 战略的全面路线图。生成 AI 峰会(2024 年 10 月 17 日和 18 日):解决基础设施、微调、可扩展性、多模态 AI 以及 LLM 可观察性和安全性方法方面的关键挑战。计算机视觉峰会(2024 年 10 月 17 日):部署文章 AIAI Boston 2024:

IEEE 认知和发展系统汇刊,第 16 卷,第 4 期,2024 年 8 月

IEEE Transactions on Cognitive and Developmental Systems, Volume 16, Issue 4, August 2024

1) 基于多模态生理信号的用户感知多层级认知工作量估计作者:Pierluigi Vito Amadori、Yiannis Demiris页数:1212 - 12222) TR-TransGAN:用于纵向 MRI 数据集扩展的时间递归 Transformer 生成对抗网络作者:Chen-Chen Fan、Hongjun Yang、Liang Peng、Xiao-Hu Zhou、Shiqi Liu、Sheng Chen、Zeng-Guang Hou页数:1223 - 12323) 基于多标准 TD3 的深度强化学习用于分散式多机器人路径规划作者:Heqing Yin、Chang Wang、Chao

人工智能能否让使用电子学习创作工具的课程规划变得轻松?

Can AI Make Lesson Planning with eLearning Authoring Tools Effortless?

即使使用数字教育出版平台,制定 K-12 课程计划也绝非易事。在线教育正在迅速成为多模式教育。随着远程、混合和持续学习模式深入教育领域,以他们喜欢的形式满足不同学习者的需求是一项普遍的挑战。此外,电子学习模式通过独特的[...阅读更多...

软计算,第 28 卷,第 13-14 期,2024 年 7 月

Soft Computing, Volume 28, Issue 13-14, July 2024

1) 使用广义梯形模糊数的完整排序进行多准则决策:修改后的结果作者:Raina Ahuja、Amit Kumar、S. S. Appadoo页数:7589 - 76002) 分数不确定微分方程的参数估计作者:Cheng Luo、Guo–Cheng Wu、Ting Jin页数:7601 - 76163) CL 代数上的拓扑作者:H. Khajeh Nasir、M. Aaly Kologani、R. A. Borzooei页数:7617 - 76254) 基于 Siamese capsule gorilla soldiers network 的汽车评论多模态情绪分析作者:Sri Raman Kot

映射滥用生成ai

Mapping the misuse of generative AI

新的研究分析了当今多模式生成AI的滥用,以帮助建立更安全,更负责任的技术。

映射滥用生成ai

Mapping the misuse of generative AI

新的研究分析了当今多模式生成AI的滥用,以帮助建立更安全,更负责任的技术。

映射滥用生成ai

Mapping the misuse of generative AI

新的研究分析了当今多模式生成AI的滥用,以帮助建立更安全,更负责任的技术。

绘制生成式 AI 的滥用情况

Mapping the misuse of generative AI

新研究分析了当今多模态生成 AI 的滥用情况,以帮助构建更安全、更负责任的技术。

麻省理工学院的研究人员推进了人工智能模型的自动可解释性

MIT researchers advance automated interpretability in AI models

MAIA 是一个多模式代理,可以迭代设计实验以更好地理解 AI 系统的各个组件。

ProcTag:一种面向数据的 AI 方法,用于评估文档指令数据的有效性

ProcTag: A Data-Oriented AI Method that Assesses the Efficacy of Document Instruction Data

有效评估文档指令数据以训练文档视觉问答 (VQA) 中的大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 是一项重大挑战。现有方法主要是面向文本的,侧重于指令的文本内容而不是执行过程,这限制了它们全面评估质量和功效的能力。文章 ProcTag:一种评估文档指令数据功效的数据导向型 AI 方法首先出现在 AI Quantum Intelligence 上。

我们准备好进行多图像推理了吗?推出 VH:Visual Haystacks 基准测试!

Are We Ready for Multi-Image Reasoning? Launching VHs: The Visual Haystacks Benchmark!

人类擅长处理大量视觉信息,这是实现通用人工智能 (AGI) 的关键技能。几十年来,人工智能研究人员开发了视觉问答 (VQA) 系统来解释单个图像中的场景并回答相关问题。虽然基础模型的最新进展大大缩小了人类和机器视觉处理之间的差距,但传统的 VQA 仅限于一次推理单个图像,而不是整个视觉数据集合。这种限制在更复杂的场景中带来了挑战。例如,辨别医学图像集合中的模式、通过卫星图像监测森林砍伐、使用自动导航数据绘制城市变化、分析大型艺术收藏中的主题元素或从零售监控录像中了解消费者行为等挑战。这些场景中的每一个不仅需要对数百或数千张图像进行视觉处理,还需要对这些发现进行跨图像处理。为了弥补这一差距,本项

Google DeepMind在ICML 2024

Google DeepMind at ICML 2024

探索AGI,扩展的挑战以及多模式生成ai

Google DeepMind在ICML 2024

Google DeepMind at ICML 2024

新的研究分析了当今多模式生成AI的滥用,以帮助建立更安全,更负责任的技术。

Google DeepMind在ICML 2024

Google DeepMind at ICML 2024

探索AGI,扩展的挑战以及多模式生成ai

Google DeepMind 参加 ICML 2024

Google DeepMind at ICML 2024

探索 AGI、扩展的挑战和多模态生成 AI 的未来

Google DeepMind在ICML 2024

Google DeepMind at ICML 2024

探索AGI,扩展的挑战以及多模式生成ai