多模式关键词检索结果

用管道和亚马逊基岩建造智能AI语音代理 - 第2部分

Building intelligent AI voice agents with Pipecat and Amazon Bedrock – Part 2

在本系列的第1部分中,您了解了如何使用Amazon Bedrock和PipeCat的组合,这是语音和多模式对话AI代理的开源框架,以使用类似人类的对话AI来构建应用程序。您了解了语音代理的常见用例和级联模型方法,在此过程中,您可以在其中精心策划多个组件来构建语音AI代理。在这篇文章(第2部分)中,您探讨了如何使用语音到语音基础模型,亚马逊Nova Sonic以及使用统一模型的好处。

使用Amazon Bedrock Guardrails

Uphold ethical standards in fashion using multimodal toxicity detection with Amazon Bedrock Guardrails

在时装行业中,团队经常会迅速进行创新,经常利用AI。共享内容,无论是通过视频,设计还是其他方式,都可以带来内容审核的挑战。产生和共享不适当,进攻或有毒内容的风险(通过故意或无意采取的行动)仍然存在风险。在这篇文章中,我们介绍了亚马逊基岩护栏的多模式毒性检测功能,以防止有毒内容。无论您是时装行业的企业巨头还是一个新兴的品牌,都可以使用此解决方案来筛选潜在的有害内容,然后才能影响品牌的声誉和道德标准。出于本文的目的,道德标准是指时装设计师可以创建的有毒,不尊重或有害内容和图像。

Point-3D LLM:使用大语言模型研究令牌结构对3D场景理解的影响

Point-3D LLM: Studying the Impact of Token Structure for 3D Scene Understanding With Large Language Models

有效地代表多模式大语言模型(MLLM)的3D场景至关重要但具有挑战性。现有方法通常仅依赖2D图像特征,并使用多样化的令牌化方法。这项工作对3D代币结构进行了严格的研究,并系统地比较了基于视频和基于点的表示,同时保持一致的模型骨干和参数。我们提出了一种新颖的方法,该方法通过结合奏鸣曲预处理的点变压器V3编码器的3D点云特征来丰富视觉令牌。我们的实验表明合并明确的…

在AWS上构建具有MISTRAL模型的MCP应用程序

Build an MCP application with Mistral models on AWS

这篇文章演示了使用Mistral AI模型在AWS和MCP上建立智能AI助手,从而集成了实时位置服务,时间数据和上下文内存,以处理复杂的多模式查询。此用例,餐厅的建议是一个例子,但是可以通过修改MCP服务器配置以与您的特定数据源和业务系统连接来适应企业用例。

SceneScout:朝着AI代理驱动访问盲人用户的街道视图图像

SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users

盲目或视力低下的人(BLV)可能会因为对物理景观的不确定性而在陌生的环境中独立旅行。虽然大多数工具专注于原位导航,但探索前旅行援助的人通常仅提供地标和转弯指令,缺乏详细的视觉上下文。街景图像包含丰富的视觉信息,并有可能揭示大量环境细节,但对于BLV人来说仍然无法访问。在这项工作中,我们介绍了Spacecout,这是一种多模式的大语言模型(MLLM)驱动的AI代理,该代理…

Google DeepMind推出了新的视觉语言动作模型,以“将AI直接放入本地机器人设备”

Google DeepMind launches new vision language action model to ‘put AI directly into local robotic devices’

Google DeepMind推出了一种旨在通用敏捷性和快速任务适应的高效,设备机器人的模型。这款新产品被称为Gemini Robotics On Device,是Gemini Robotics VLA(Vision Language Action)模型的优化版本,该版本最初于3月推出,以将Gemini 2.0的多模式推理整合到物理​​应用中。双子座机器人[…]

Shaip在对稳定,可扩展伙伴的需求不断增长的情况下扩展了Genai数据能力

Shaip Expands GenAI Data Capabilities Amidst Growing Demand for Stable, Scalable Partners

肯塔基州路易斯维尔 - 2025年6月24日 - 随着AI行业的快速发展,组织越来越多地寻求可靠的,企业级的合作伙伴,以高质量,多样性和可扩展的培训数据为其Genai策略提供动力。作为回应,Shaip大大扩展了其数据基础架构和产品,使其作为安全,多模式AI数据集的领先提供商的地位[…]

软计算,第29卷,第8期,2025年4月

Soft Computing, Volume 29, Issue 8, April 2025

1)使用GrossoneAuthor(S):Louis d’Alotopages:3749-37552)遗传算法中的选择噪声分析的无限计算和Büchi自动机分析:Nataliya M. Gulayya M. Gulayya,JoaquínBorregodogogodogogogogogogo-díaz,37777 37 37 37 37 33.部分公制空间代数为代数:Sarvesh Kumar Mishra,Mukesh Kumar Shukla,Akhilesh Kumar Singhpages:3775-37844)演绎系统和R -Congruences and R -Congruence

变分的整流流匹配

Variational Rectified Flow Matching

我们研究变异的整流流匹配,该框架通过建模多模式速度矢量场来增强经典的整流流匹配。在推理时,经典的整流流匹配“移动”样品通过沿速度向量场的集成求解普通的微分方程,从源分布到目标分布。在训练时,通过线性插值从源来绘制的耦合样品和一个随机从目标分布中绘制的耦合样品,从而学习了速度矢量场。这导致“地面真相”'速度…

AI使用AWS工具彻底改变了农业

AI Revolutionizes Farming with AWS Tools

它很重要:AI通过使用多模式模型来提高产量,精度和洞察力,通过AWS工具彻底改变了农业。

使用Amazon Bedrock Guardrails构建负责AI应用程序

Build responsible AI applications with Amazon Bedrock Guardrails

在这篇文章中,我们演示了亚马逊基岩护栏如何有助于阻止有害和不希望的多模式内容。使用医疗保险呼叫中心方案,我们介绍配置和测试各种护栏的过程。

用管道和亚马逊基岩建造智能AI语音代理 - 第1部分

Building intelligent AI voice agents with Pipecat and Amazon Bedrock – Part 1

在这一系列帖子中,您将学习如何使用PipeCat构建智能AI语音代理,这是一个用于语音和多模式对话AI代理的开源框架,并在Amazon Bedrock上建立了基础模型。它包括高级参考体系结构,最佳实践和代码样本,以指导您的实施。

shapellm-oomni旨在理解和生成3D内容

ShapeLLM-Omni designad för att förstå och generera 3D-innehåll

Shapellm-oomni是一种全新的多模式AI模型,不仅可以理解和生成文本和图像,还可以生成3D对象。对于AI世界来说,这是向前迈出的一大步,在该世界中,诸如GPT-4O之类的模型仅限于二维媒体。 Shapellm-oomni旨在理解,生成和编辑3D资源,并可以将这些[…] Shapellm-oomni的帖子结合起来,旨在理解和生成3D内容,首先出现在AI新闻中。

亲俄罗斯雨刷的新鲜压力冲洗乌克兰关键基础设施

Fresh strain of pro-Russian wiper flushes Ukrainian critical infrastructure

破坏性恶意软件一直是普京多模式的WARA的标志,这是针对乌克兰基础设施的雨刮器恶意软件菌株与亲俄罗斯黑客的联系,这是莫斯科不断发展的网络战术的最新迹象。

LGG推出Cargoland - 未来的枢纽

LGG launches CargoLand – the hub of the future

5亿欧元正在LGG的无与伦比的货物基础设施项目投资。将重新定义各个级别的空中货物处理 - 数字,设备,范围,尺寸,多模式和可持续性。 Cargoland将在2040年完全完成,已被精心计划为货物枢纽的下一代,并将LGG放置在[…]

即将举行的机器学习和AI研讨会:2025年6月Edition

Forthcoming machine learning and AI seminars: June 2025 edition

该帖子包含计划在2025年6月2日至7月31日之间举行的与AI相关的研讨会的列表。此处详细介绍的所有活动都是免费的,并开放供任何人参加。 2025年6月2日,基础时间序列的基本局限性预测模型:对多模式和严格评估扬声器的需求:丹尼尔[…]

新的亚马逊基岩数据自动化功能流线视频和音频分析

New Amazon Bedrock Data Automation capabilities streamline video and audio analysis

亚马逊基岩数据自动化可帮助组织通过可自定义的多模式分析来简化开发并提高效率。无论是在视频还是音频上,它都消除了非结构化内容处理的繁重提升。新功能使提取量身定制的,生成的AI驱动的见解(如场景摘要,关键主题以及视频和音频的客户意图)变得更快。这可以为用例以提高销售生产率和增强客户体验等用例提供非结构化内容的价值。

指南:在Android上安装Gemma 3n

Guide: Installera Gemma 3n på android

在本指南中,我们将向您展示如何在Android手机上轻松安装新的Google Gemma 3N。 Gemma 3N型号可以在2GB RAM上运行。它与双子座Nano共享相同的架构,并旨在出色的性能。 Google增加了合理的理解,因此现在是多模式,[…]帖子指南:Android上的Gemma 3N首次出现在AI新闻中。