新的人工智能模型非常擅长“阅读”人类思想

一种新的人工智能模型展示了通过实时解释视觉和上下文线索来预测人类行为的前所未有的能力。该系统不是简单地对运动做出反应,而是推断人们下一步可能会做什么。来自德克萨斯 A&M 大学工程学院和韩国高级科学研究所的研究人员 [...]

来源:SciTech日报

一种新的人工智能模型展示了通过实时解释视觉和上下文线索来预测人类行为的前所未有的能力。该系统不是简单地对运动做出反应,而是推断人们下一步可能会做什么。

来自德克萨斯 A&M 大学工程学院和韩国科学技术院的研究人员推出了一种名为 OmniPredict 的新型人工智能 (AI) 系统,旨在提高自动驾驶汽车的安全性。

OmniPredict 是第一个使用多模态大型语言模型 (MLLM) 来预测行人行为的系统。它利用了高级聊天机器人和图像识别中使用的相同底层技术,但其目标不同。通过将所看到的内容与上下文细节相结合,该系统旨在实时预测一个人下一步可能会做什么。

早期测试引起了人们的关注,这表明 OmniPredict 即使没有专门的培训也可以提供极高的准确率。

“城市是不可预测的。行人也是不可预测的,”该项目的首席研究员兼自动驾驶车辆和传感器系统中心主任 Srinkanth Saripalli 博士说。 “我们的新模型让我们看到了未来,机器不仅能看到正在发生的事情,还能预测人类可能会做什么。”

一种新型的“街头智慧”

随着开发人员努力让自动驾驶变得更安全,OmniPredict 添加了新的街道感知层,更接近人类的直觉。

它不只是响应行人当前的动作,而是尝试预测该人下一步会做什么。如果它按预期工作,这种方法可能会影响自动驾驶汽车在密集的城市环境中的运行方式,并更顺利地在繁忙的街道上行驶。

“它为更安全的自动驾驶车辆操作、减少与行人相关的事故以及从反应到主动预防危险的转变打开了大门,”Saripalli 说。

心理状况也可能发生变化。