视觉领域信息情报检索---XiaoMi-AI

图像字幕是计算机视觉中最基本的任务之一。由于其开放性，它在多模态大语言模型（MLLM）时代受到了极大的关注。为了追求更加详细和准确的字幕，最近的工作越来越多地转向强化学习（RL）。然而，现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念，从而导致字幕核心维度之间的权衡。例如，以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……

美国空军总分类

2026年5月12日 20:59

空军和波音公司加速 KC-46 升级以达到目标准备状态

Air Force, Boeing accelerate KC-46 upgrades to target readiness

该计划追求三个主要工作方向：重新利用早期制造的飞机以立即产生作战影响、加快远程视觉系统 2.0 改造计划以及实施有针对性的基于绩效的后勤工作以解决系统准备挑战。

RoboticsTomorrow News

2026年5月12日 07:36

无

None

在这两次演讲中，KUKA 将展示集成机器人、移动自动化和基于视觉的软件如何协同工作，为现代包装和快速消费品环境提供可扩展、灵活的解决方案。

EVS Robot 博客

2026年5月12日 06:00

AC 户外面板冲压机器人：4 机器人生产线视频

AC Outdoor Panel Stamping Robots: 4-Robot Line Video

观看使用四个机器人、两个重型压力机、双夹具、视觉定位和压力机到压力机传输的 AC 户外面板冲压自动化。AC 户外面板冲压机器人：4 机器人线视频首次出现在 EVST。

斯坦福新闻

2026年5月12日 00:00

演奏农场的音乐传奇

Musical legends who played the Farm

从爵士巨星到摇滚偶像再到韩国流行音乐皇室，斯坦福大学的音乐会历史源远流长。通过表演来一场视觉之旅。

ΑΙhub

2026年5月11日 08:09

基于梯度的长期世界模型规划

Gradient-based planning for world models at longer horizons

GRASP 是一种新的基于梯度的学习动态规划器（“世界模型”），它通过以下方式使长视野规划变得实用：(1) 将轨迹提升到虚拟状态，以便优化在时间上是并行的；(2) 直接向状态迭代添加随机性以进行探索；(3) 重塑梯度，以便动作获得清晰的信号，同时我们通过高维视觉模型避免脆弱的“状态输入”梯度。大型学习世界模型的能力越来越强。他们可以预测高维视觉空间中未来观察的长序列，并以几年前难以想象的方式概括任务。随着这些模型的扩展，它们开始看起来不再像特定于任务的预测器，而更像通用模拟器。但是拥有强大的预测模型并不等于能够有效地将其用于控制/学习/规划。在实践中，现代世界模型的长期规划仍然脆弱：优化变

TeacherCast

2026年5月11日 11:34

教师可在 60 秒内使用的 5 个 Gemini-Powered NotebookLM 功能

5 Gemini-Powered NotebookLM Features Teachers Can Use in 60 Seconds

您是否厌倦了花费宝贵的课堂时间试图理解密集的阅读内容，却发现学生脱节或错过关键概念？想象一下，如果您可以在一分钟内将任何课程材料转变为动态音频或视频简报，为每个学习者提供一种新鲜、易于访问的方式来随时随地复习内容。在这篇文章中，我将向您展示 Google NotebookLM 中隐藏的五项由 Gemini 支持的功能如何将那些无休无止的准备时间转化为快速、有影响力的课堂胜利。首先，音频概述让您只需上传三个源，即可立即创建播客式对话，使材料栩栩如生，非常适合需要在公交车旅途中进行口头回顾的学生。接下来，视频概述构建了一个带旁白的幻灯片视频，为视觉学习者提供了可立即观看的摘要，他们可以暂停和重播。

一丝洞察

2026年5月10日 06:09

华硕 ROG G14 游戏笔记本电脑：功能与风格合二为一

Laptop Gaming Asus ROG G14: Kehebatan dan Gaya Dalam Satu Perangkat

华硕 ROG G14 游戏笔记本电脑立即吸引任何看到它的人的注意力。其紧凑而激进的设计散发着力量和现代的气息。与看起来笨重乏味的普通笔记本电脑不同，该设备将未来美学与实用性结合在一起，可以轻松随身携带。对于寻求令人惊叹的视觉维基百科体验和 [...]

Aero-News Network

2026年5月9日 18:40

Airborne-NextGen 05.05.26：MQ-25A Stingray 飞行，Joby 在纽约，$15B Starship

Airborne-NextGen 05.05.26: MQ-25A Stingray Flies, Joby In NYC, $15B Starship

另外：视觉视线、跟踪消防车、另一个激光傻瓜、直升机火力攻击系统美国海军于 4 月 25 日在波音中美机场设施正式启动其第一架无人舰载加油机的飞行测试，并进行了两小时的首次任务。独一无二的波音 MQ-25A Stingray 的首次亮相涉及波音和海军飞行器飞行员远程操作该飞机。 Joby Aviation 在其最有前途的美国市场之一：纽约市完成了为期一周的一系列电动空中出租车演示飞行。这标志着首次通过该市现有的直升机场网络进行点对点 eVTOL 运营。该活动将肯尼迪机场与曼哈顿的多个地点连接起来，包括市中心的 Skyport 以及中城东西两侧的地点。 SpaceX 已花费超过 150 亿美元开

Robohub

2026年5月8日 11:33

机器人谈话第 155 集 – 与 Melissa Greeff 一起让空中机器人变得更智能

Robot Talk Episode 155 – Making aerial robots smarter, with Melissa Greeff

Claire 与女王大学的 Melissa Greeff 讨论了无人机的自主导航和学习。梅丽莎·格里夫 (Melissa Greeff) 是女王大学电气与计算机工程系助理教授。她领导 Robora Lab，也是 Ingenuity Labs 机器人和人工智能研究所的成员。她的研究兴趣包括空中机器人、基于视觉的导航和基于安全学习的[...]

Julian Vasquez Heilig的隐匿不平等

2026年5月8日 17:04

谁先看到你？

Who Saw You First?

一旦你的成功让信仰变得简单并且社交变得方便，谁也不会庆祝你。在证据出现之前谁见过你？当你还不确定、未完成、挣扎、尴尬、被忽视或被其他人忽视时，谁认识到你的可能性？这种洞察力很少见，因为真正的洞察力不仅仅是注意到人才。真正的视觉是[...]

AeroXplorer

2026年5月8日 23:00

阿联酋航空已在整架 A380 上涂上阿联酋国旗，并已飞往纽约和布里斯班

Emirates Has Painted the UAE Flag Across an Entire A380 and It Has Already Flown to New York and Brisbane

阿联酋航空推出了其 41 年历史上最具视觉冲击力的特殊涂装之一，在其标志性的空客 A380 超级客机上采用大胆的全机身渲染阿联酋国旗。

Aero-News Network

2026年5月7日 19:25

Airborne-NextGen 05.05.26：MQ-25A Stingray 飞行，Joby 在纽约，$15B Starship

Airborne-NextGen 05.05.26: MQ-25A Stingray Flies, Joby In NYC, $15B Starship

另外：视觉视线、跟踪消防车、另一个激光傻瓜、直升机火力攻击系统美国海军于 4 月 25 日在波音中美机场设施正式启动其第一架无人舰载加油机的飞行测试，并进行了两小时的首次任务。独一无二的波音 MQ-25A Stingray 的首次亮相涉及波音和海军飞行器飞行员远程操作该飞机。 Joby Aviation 在其最有前途的美国市场之一：纽约市完成了为期一周的一系列电动空中出租车演示飞行。这标志着首次通过该市现有的直升机场网络进行点对点 eVTOL 运营。该活动将肯尼迪机场与曼哈顿的多个地点连接起来，包括市中心的 Skyport 以及中城东西两侧的地点。 SpaceX 已花费超过 150 亿美元开

Apple机器学习研究

2026年5月7日 00:00

实际学习图像压缩中重要的是什么

What Matters in Practical Learned Image Compression

学习编解码器相对于硬编码的传统编解码器的主要区别之一是它们能够直接优化以吸引人类视觉系统。尽管有这种潜力，但一种可感知且实用的图像编解码器尚未被提出。在这项工作中，我们的目标是缩小这一差距。我们对控制实际学习图像编解码器设计的关键建模选择进行了全面的研究，并针对感知质量和运行时间进行了联合优化 - 包括在消融中的几种新技术。然后我们执行性能感知神经......

Robotiq

2026年5月7日 13:00

触觉传感如何提高模型性能

How tactile sensing improves model performance

视觉-语言-动作模型是机器人操作领域的最新技术。他们仍然无法在不压碎薯片的情况下拿起薯片。这是视频触觉动作模型（VTAM）背后的团队今年早些时候发布的结果。在薯片拾取和放置任务中（一项需要高保真力感知的任务，仅靠视觉无法区分挤压性抓握和握持性抓握），VTAM 的性能比 π0.5 基线高出 80%。在更广泛的接触丰富的基准测试套件中，VTAM 的平均成功率为 90%。 1该芯片是一个对抗性示例，这正是它是正确测试的原因。在抓握点，只有接触动态才携带有用的信号。压力、振动和力/扭矩告诉策略正在发生什么，纠正仅视觉模型无法自行检测的视觉估计错误。相机无论分辨率有多高，都无法完成这项工作。

视觉关键词检索结果