详细内容或原文请订阅后点击阅览
双子座,怎么了?聊天机器人学会了实时评论视频
Google 的更新模型将超越文本和图像。如果事实证明这是真的就好了……
来源:安全实验室新闻频道Google 的更新模型将超越文本和图像。如果事实证明这是真的就好了……
就在其年度大会 Google I/O 2024 的前一天,Google 决定通过展示一款非常有趣的新产品来激发公众的兴趣。
谷歌直到最近,人工智能驱动的聊天机器人主要专注于文本和图像处理。然而,谷歌科学家看到了这种多模式助手更广阔的前景。谷歌的演示展示了 Gemini 的高级版本,可以实时分析视频流。他们承诺在今天的 I/O 主题演讲中更详细地讨论这项技术。
双子座在显然是在会议现场准备期间拍摄的视频中,我们看到 Gemini 在 Pixel 智能手机上运行。助手使用小工具的摄像头查看周围环境,同时处理用户的语音命令。双子座首先被问到一个问题:“你认为这里发生了什么?”助手准确识别重大活动的准备阶段。
视频然后模型本身会向用户询问一个澄清的问题:“有什么特别引起您注意的吗?”双子座自然地通过将焦点转移到背景中可见的字母来继续对话。助理解释说,这是 Google I/O 的徽标,这是一年一度的开发者盛会,并简要介绍了其本质。
此次演示已经给专家和用户留下了深刻的印象——不仅因为基于视频和语音的多模态交互,还因为人机对话的流畅和自然。
然而,值得考虑的是,谷歌之前曾展示过一段与双子座对话的类似视频,后来证明,该视频好得令人难以置信。目前尚不清楚该公司这次的意图有多认真。