多模关键词检索结果

霍尼韦尔和谷歌云将利用人工智能代理加速工业领域的自主运营

Honeywell and Google Cloud to accelerate autonomous operations with AI agents for the industrial sector

霍尼韦尔和 Google Cloud 合作开展“独特合作”,将人工智能 (AI) 代理与资产、人员和流程联系起来,以加速工业部门更安全、更自主的运营。此次合作将结合 Vertex AI 上的 Gemini(Google Cloud 的 AI 平台)的多模态和自然语言功能以及庞大的 […]

冬季风暴威胁笼罩中大西洋和东北部感恩节旅游周

Winter Storm Threat Looms Over Thanksgiving Travel Week In Mid-Atlantic & Northeast

冬季风暴威胁中大西洋和东北部感恩节旅游周 就在中大西洋和东北部地区的人们还没有从上周席卷该地区的暴风雪和雨水的侵袭中恢复过来之际,另一场风暴可能会在感恩节旅游假期前影响华盛顿特区和纽约市之间的 95 号州际公路网络。私人气象预报员 BAMWX 在 X 上写道,超过 100 个混合天气模型集合显示,感恩节前后,一场冬季风暴可能横穿大西洋中部地区,进入东北部部分地区。“目前,#thanksgiving 的多模型概率 % 预测开始表明周三至周四有 4 英寸以上的降雪风险,”BAMWX 表示。在 BAM,我们 Clarity 中的数据融合了超过 100 种不同的天气模型集合。然后,我们创建概率图来查看

在人工智能聊天机器人的“狂野西部”,与种族和种姓有关的微妙偏见往往得不到控制

In the ‘Wild West’ of AI chatbots, subtle biases related to race and caste often go unchecked

LinkedIn 的招聘助理引发了对 AI 招聘工具偏见的担忧。研究人员发现许多模型会产生有害内容,尤其是有关种姓的内容。文章“在 AI 聊天机器人的“狂野西部”,与种族和种姓有关的微妙偏见往往得不到控制”首次出现在《科学探究者》上。

美国海军与 Leonardo DRS 联合演习 AN/SPQ-9B 选项

US Navy exercises AN/SPQ-9B option with Leonardo DRS

海军海上系统司令部 (NAVSEA) 于 11 月 18 日确认,该奖项结合了 2023 财年 (FY2023) 和 2025 财年的造船和改装资金,各占 50%。该合同选项是今年早些时候与 Leonardo DRS 签订的 FY2024-28 生产合同的一部分。 AN/SPQ-9B 是一款 X 波段脉冲多普勒窄波束多模雷达,旨在……美国海军使用 Leonardo DRS 演习 AN/SPQ-9B 选项一文首先出现在海军新闻中。

从 RAG 到结构:在 GenAIIC 构建真实 RAG 的经验教训 - 第 2 部分

From RAG to fabric: Lessons learned from building real-world RAGs at GenAIIC – Part 2

本博文重点介绍如何在异构数据格式上执行 RAG。我们首先介绍路由器,以及它们如何帮助管理不同的数据源。然后,我们给出如何处理表格数据的提示,最后介绍多模式 RAG,特别关注处理文本和图像数据的解决方案。

2024年全国民意参考调查方法

2024 National Public Opinion Reference Survey Methodology

摘要 SSRS 使用基于地址的抽样和多模式协议为皮尤研究中心进行了全国公众舆论参考调查 (NPORS)。调查于 2024 年 2 月 1 日至 2024 年 6 月 10 日进行。参与者首先收到一封邀请函,邀请他们完成在线调查。随后,向未完成调查的人邮寄了一份纸质调查问卷 […]2024 年全国公众舆论参考调查方法论一文首次出现在皮尤研究中心。

LLM 评估、AI 附带项目、用户友好型数据表和其他 10 月必读内容

LLM Evaluation, AI Side Projects, User-Friendly Data Tables, and Other October Must-Reads

是否想写出您的第一篇 TDS 文章?我们始终欢迎新作者的投稿。我们似乎正处于日历上的一个甜蜜点,即夏末和假期来临前的最后高峰之间——换句话说,这是一年中学习、修修补补和探索的最佳时机。我们 10 月份阅读次数最多的文章反映了这种专注的精神,涵盖了一系列实践主题。从可行的 AI 项目想法和数据科学收入流到易于理解的时间序列分析和 LLM 指南,这些故事很好地代表了我们作者的专业知识广度以及他们(和我们的读者)兴趣的多样性。如果您还没有阅读它们,现在就是最佳时机?每月亮点您可以在本周末构建的 5 个 AI 项目(使用 Python)如果您还没有撸起袖子,那么很快就会撸起袖子:我们 10 月份阅读次

计算机使用和 AI 代理:屏幕交互的新范式

Computer Use and AI Agents: A New Paradigm for Screen Interaction

探索多模态 AI 代理的未来和屏幕交互的影响作者使用 GPT4o 创建的图像简介:不断发展的 AI 代理格局Anthropic、微软和苹果最近发布的公告正在改变我们对 AI 代理的看法。如今,“AI 代理”一词已经饱和——几乎每个与 AI 相关的公告都提到了代理,但它们的复杂程度和实用性差别很大。一方面,我们拥有先进的代理,它们利用多个循环进行规划、工具执行和目标评估,并不断迭代直到完成任务。这些代理甚至可以创建和使用记忆,从过去的错误中吸取教训,以推动未来的成功。确定什么是有效的代理是 AI 研究的一个非常活跃的领域。它涉及了解哪些属性造就了一个成功的代理(例如,代理应该如何规划、如何使用内

据报道,谷歌正在开发一款可以控制浏览器的 AI 代理

Google reportedly developing an AI agent that can control your browser

Project Jarvis 显然会代表您进行研究、购买产品,甚至预订航班据报道,谷歌正寻求通过让其多模式大型语言模型 (LLM) 控制您的浏览器来规避人工智能驱动自动化的复杂性。

4M-21:适用于数十种任务和模式的任意视觉模型

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

*平等贡献者当前的多模态和多任务基础模型(如 4M 或 UnifiedIO)显示出了良好的结果,但在实践中,它们接受不同输入和执行不同任务的开箱即用能力受到它们所训练的模态和任务数量(通常相当少)的限制。在本文中,我们通过在数十种高度多样化的模态上对其进行训练以及在大规模多模态数据集和文本语料库上进行联合训练,显著扩展了 4M 的功能。这包括对几种语义和几何模态、特征图的训练......

对比本地化语言图像预训练

Contrastive Localized Language-Image Pre-Training

对比语言-图像预训练 (CLIP) 是一种广受赞誉的方法,用于训练视觉编码器生成图像/文本表示,以促进各种应用。最近,CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉主干,以连接图像输入以进行语言交互。CLIP 作为视觉语言基础模型的成功依赖于在图像级别对齐网络爬取的嘈杂文本注释。然而,这样的标准可能不足以满足需要细粒度视觉表示的下游任务,尤其是……

FormulaFeatures:一种为可解释模型生成高预测性特征的工具

FormulaFeatures: A Tool to Generate Highly Predictive Features for Interpretable Models

使用基于数字特征的算术组合自动设计的简洁、高度预测的特征创建更易于解释的模型在本文中,我们研究了一个名为 FormulaFeatures 的工具。这主要用于可解释模型,例如浅层决策树,其中少量简洁且高度预测的特征可以极大地帮助提高模型的可解释性和准确性。机器学习中的可解释模型本文继续我关于可解释机器学习的系列文章,之前的文章包括 ikNN、加法决策树、遗传决策树和 PRISM 规则。如前几篇文章所述(并在那里更详细地介绍),通常有强烈的动机使用可解释的预测模型:每个预测都可以很好地理解,我们可以确信模型将在未来看不见的数据上表现合理。有许多模型可以提供可解释的 ML,但不幸的是,这些模型比我们

中国在 AI 竞赛中表现如何?科技巨头和初创公司正在突破界限

How is China doing in the AI race? Tech giants and startups are pushing boundaries

阿里云最近在其 Qwen 2.5 系列中发布了 100 多个新的开源模型。这些模型的大小从 0.5 到 720 亿个参数不等,可以用 29 种不同的语言处理从编码到数学的任务。该公司的统一模型可通过 Model Studio 平台使用,短短几个月内,其用户群就从 90,000 人跃升至 300,000 多人。阿里巴巴还在多模态 AI 领域不断突破界限。他们推出了一种文本转视频模型,可以根据书面描述创建各种视频风格,类似于尚未发布的 OpenAI 的 Sora。该公司的 Qwen 2-VL 模型可以The post 中国在 AI 竞赛中表现如何?科技巨头和初创公司正在突破界限首先出现在 Dail

Google 发布针对 Gemini 机型的重大更新

Google releases major updates for Gemini models

通过降价、提高速率限制和加快输出速度,Google 推出的全新 Gemini 模型让全球开发者能够更轻松地使用高级 AI。它们可提高速度、降低成本,并增强各种文本、代码和多模式任务的性能。

使用基于语音检索的增强功能将 ASR 与 LLM 关联化

Contextualization of ASR with LLM Using Phonetic Retrieval-Based Augmentation

大型语言模型 (LLM) 已展现出对包括音频和文本在内的多模态信号进行建模的卓越能力,允许模型根据语音输入生成口头或文本响应。然而,当输入模态为语音时,识别个人命名实体(例如电话簿中的联系人)对模型来说仍然是一个挑战。在这项工作中,我们从语音识别任务开始,并提出了一种基于检索的解决方案来将 LLM 情境化:我们首先让 LLM 在没有任何上下文的情况下检测语音中的命名实体,然后使用此命名实体作为查询来检索……

IEEE 模糊系统学报,第 32 卷,第 9 期,2024 年 9 月

IEEE Transactions on Fuzzy Systems, Volume 32, Issue 9, September 2024

1) GIFTWD:基于前景理论的广义直觉模糊三支决策模型作者:戴建华,陈涛,张凯,刘敦,丁伟平页数:4805 - 48192) 多尺度决策信息系统中基于直觉模糊数的前景理论三支决策方法作者:肖义斌,詹建明,张超,吴伟志页数:4820 - 48343) 一种用于时间序列数据多粒度模糊关联分析的新型三支深度学习方法作者:蒋春茂,段颖页数:4835 - 48454) 一种融合模糊偏好关系下三支聚类和遗憾理论的大规模群体决策方法作者:郭伦,詹建明,张超,徐泽水页数: 4846 - 48605) 基于模糊规则的投资组合选择系统使用技术分析作者:Ahmad Zaman Khan、Pankaj Gupta

Transformer?扩散?输血!

Transformer? Diffusion? Transfusion!

最新多模态转输模型的简单介绍最近,Meta 和 Waymo 发布了他们的最新论文 —Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,该论文将流行的 Transformer 模型与扩散模型相结合,用于多模态训练和预测目的。与 Meta 之前的工作一样,Transfusion 模型基于带有早期融合的 Llama 架构,它同时采用文本 token 序列和图像 token 序列,并使用单个 Transformer 模型来生成预测。但与以前的技术不同,Transfusion 模型对图像 t

使用 DocOwl2 优化文档理解:一种新颖的高分辨率压缩架构

Optimizing Document Understanding with DocOwl2: A Novel High-Resolution Compression Architecture

理解多页文档和新闻视频是人类日常生活中的一项常见任务。为了解决这种情况,多模态大型语言模型 (MLLM) 应该具备理解具有丰富视觉文本信息的多幅图像的能力。然而,理解文档图像比自然图像更具挑战性,因为它需要更细粒度的感知。使用 DocOwl2 优化文档理解:一种新颖的高分辨率压缩架构,首次出现在 AI Quantum Intelligence 上。