多模式关键词检索结果

Google DeepMind在ICML 2024

Google DeepMind at ICML 2024

新的研究分析了当今多模式生成AI的滥用,以帮助建立更安全,更负责任的技术。

Google DeepMind在ICML 2024

Google DeepMind at ICML 2024

探索AGI,扩展的挑战以及多模式生成ai

这是迄今为止最像 Bug 的机器人 Bug

Here’s the Most Buglike Robot Bug Yet

昆虫长期以来一直是机器人的灵感来源。昆虫世界充满了微小、完全自主、高度机动、节能、多模式、自我修复的生物,我可以继续列举下去,但您明白我的意思 - 昆虫既是机器人专家的灵感来源,也是他们沮丧的来源,因为让机器人拥有接近昆虫的能力非常困难。不过,我们确实取得了进展。在上个月发表在 IEEE 机器人与自动化快报上的一篇论文中,来自上海中通大学的机器人专家展示了我认为我见过的最像虫子的机器人虫子。多模式无尾扑翼机器人www.youtube.com好吧,它可能看起来不是最像虫子的,但它可以做很多非常像虫子的事情,包括爬行、水平起飞、飞行(具有六个自由度控制)、悬停、着陆和必要时的自动复位。 JT-fl

介绍 Falcon2:TII 的下一代语言模型

Introducing Falcon2: Next-Gen Language Model by TII

关于 TII 性能最佳的开源、多语言和多模式语言模型的一切

免费访问 GPT-4o 的 5 种方法

5 Ways to Access GPT-4o for Free

体验 GPT-4o,这是适用于所有工作相关任务的终极多模式 AI。

TinyAgent:边缘函数调用

TinyAgent: Function Calling at the Edge

LLM 能够通过普通语言(例如英语)执行命令,这使得代理系统能够通过协调正确的工具集(例如 ToolFormer、Gorilla)来完成用户查询。这与最近的多模式努力(例如 GPT-4o 或 Gemini-1.5 模型)一起扩大了 AI 代理的可能性范围。虽然这非常令人兴奋,但这些模型的模型大小和计算要求通常要求在云端进行推理。这可能会给它们的广泛采用带来一些挑战。首先,将视频、音频或文本文档等数据上传到云端的第三方供应商可能会导致隐私问题。其次,这需要云/Wi-Fi 连接,而这并不总是可行的。例如,部署在现实世界中的机器人可能并不总是有稳定的连接。除此之外,延迟也可能是一个问题,因为将大量数

展望AI首尔峰会

Looking ahead to the AI Seoul Summit

探索AGI,扩展的挑战以及多模式生成ai

Pogo Stick 微型直升机从地板和墙壁上弹起

Pogo Stick Microcopter Bounces off Floors and Walls

我们倾向于从地面开始思考跳跃机器人。也就是说,它们从地面开始,然后通过跳跃,将空中阶段融入其运动中。但是,空中机器人没有理由不能从另一个方向进行跳跃,即在飞行中添加跳跃地面阶段。Hopcopter 是我见过的第一个尝试这种跳跃方式的机器人,它非常有效,将一个微型四旋翼飞行器与一个弹性腿结合起来,在空中跳跃。Songnan Bai、Runze Ding、Song Li 和 Bingxuan Pu 那么,为什么在空中值得为一个功能完好的四旋翼飞行器添加弹簧单高跷呢?嗯,飞行当然是一项宝贵的能力,但确实需要大量能量。如果你仔细观察鸟类(该领域公认的专家),你会发现它们往往会花费大量时间尽力不飞翔,通

大背景窗口很重要

Big Context Windows Are a Big Deal

上周,我试用了 Google 最新的生成模型:Gemini 1.5,这是一个多模式庞然大物,可以处理长达一小时的视频、11 小时的音频、30,000 行代码或 700,000 个单词。就上下文长度而言,这是一个巨大的飞跃:Gemini 接受的输入是其最强大的前身 Claude 2.1 的 5 倍。我一直兴奋地期待着长上下文窗口时代的到来,不仅因为它们使生成模型能够解决全新类型的问题,还因为它们可能会改变我们使用 LLM 进行开发的方式。但我有点操之过急了。首先,让我与您分享一些我最喜欢的 Gemini 1.5 实验。使用 VideoAI Family Video Archive 2.0 进行提

2023/10/11 团队开发数据集以支持 DARPA 分类挑战

2023/10/11 Teams Developing Datasets to Support DARPA Triage Challenge

创伤医学观察研究基础设施 (RITMO) 工作旨在将从创伤患者受伤后早期获得的大量多模式传感器、干预和医疗结果数据整合到一个数据库中。通过使用去识别化的患者数据,研究人员可以确保患者隐私受到保护。 RITMO 收集的数据将支持 DARPA 分类挑战计划,以识别新的生理特征,从而增强在严峻、复杂和造成大规模伤亡的环境中的分类决策。

在人工智能模型中测量感知

Measuring perception in AI models

感知——通过感官体验世界的过程——是智能的重要组成部分。而构建具有人类水平的感知理解世界的代理是一项核心但具有挑战性的任务,这在机器人、自动驾驶汽车、个人助理、医学成像等领域变得越来越重要。所以今天,我们推出了感知测试,这是一个使用真实世界视频来帮助评估模型感知能力的多模式基准。

测量AI模型中的感知

Measuring perception in AI models

感知 - 通过感官体验世界的过程 - 是智力的重要组成部分。对世界具有人层感知理解的建筑代理是一项核心但具有挑战性的任务,在机器人技术,自动驾驶汽车,个人助理,医学成像等方面变得越来越重要。因此,今天,我们推出了感知测试,这是一种使用现实世界视频的多模式基准测试,以帮助评估模型的感知能力。

测量AI模型中的感知

Measuring perception in AI models

感知 - 通过感官体验世界的过程 - 是智力的重要组成部分。对世界具有人层感知理解的建筑代理是一项核心但具有挑战性的任务,在机器人技术,自动驾驶汽车,个人助理,医学成像等方面变得越来越重要。因此,今天,我们推出了感知测试,这是一种使用现实世界视频的多模式基准测试,以帮助评估模型的感知能力。

测量AI模型中的感知

Measuring perception in AI models

感知 - 通过感官体验世界的过程 - 是智力的重要组成部分。对世界具有人层感知理解的建筑代理是一项核心但具有挑战性的任务,在机器人技术,自动驾驶汽车,个人助理,医学成像等方面变得越来越重要。因此,今天,我们推出了感知测试,这是一种使用现实世界视频的多模式基准测试,以帮助评估模型的感知能力。

测量AI模型中的感知

Measuring perception in AI models

感知 - 通过感官体验世界的过程 - 是智力的重要组成部分。对世界具有人层感知理解的建筑代理是一项核心但具有挑战性的任务,在机器人技术,自动驾驶汽车,个人助理,医学成像等方面变得越来越重要。因此,今天,我们推出了感知测试,这是一种使用现实世界视频的多模式基准测试,以帮助评估模型的感知能力。

通才代理

A Generalist Agent

受到大规模语言建模进展的启发,我们采用类似的方法来构建文本输出领域之外的单一通用代理。我们称之为 Gato 的代理是一种多模式、多任务、多体现的通用策略。具有相同权重的相同网络可以玩 Atari、为图片添加字幕、聊天、用真正的机械臂堆叠积木等等,并根据其上下文决定是否输出文本、关节扭矩、按钮按下或其他标记。

为什么我们没有看到任何主流游戏使用 LLM 驱动的 AI NPC?

Why haven't we seen any mainstream games utilizing LLM-driven AI NPCs?

因为这很难……我们在过去四年中一直致力于这项工作。制作一个简单的概念验证 (PoC) 很容易(我们已经见过很多),但要将其完善到生产级别,需要付出 1,000 倍的努力,因为会出现更深层次的复杂性:1) 成本:通过 API 使用 LLM 意味着有人必须为每个玩家每小时支付数千个代币。是的,你可以在玩家的 GPU 上运行较小的 LLM(例如 Mistral、Llama3 8b),但质量和功能可能不足以提供引人入胜的叙事和游戏玩法。2) 现在还为时过早:GPT-3.5 才 1.5 年,GPT-4 才 1 年。3) 当前的 LLM:它们可能无法在长时间的游戏会话中运行多智能体叙事。上下文大小不足以一

JumpRoACH 机器人模仿真正的甲虫(+视频)

Робот JumpRoACH имитирует настоящего жука (+ видео)

在寻找最成功的机器人甲虫设计的过程中,基于生物自然的多模式运动系统正在变得时尚。结合跑步和跳跃等技能,您可以创建具有最高效运动系统的小型机器人,使它们一次充电即可移动更远,帮助它们克服障碍并在崎岖的地形上移动。