岩浆:多模式AI代理的基本模型

岩浆是多模式AI代理的第一个基本模型,来自Microsoft Research的创新模型有可能通过实现数字世界和物理世界之间的自然整合来彻底改变我们与AI系统的互动方式。岩浆可以处理虚拟和物理环境中的复杂交互。该模型将理解图片和视频的能力与容量[…]的能力结合在一起,岩浆:多模式AI代理的基本模型首次出现在AI新闻中。

来源:AI新闻
    多模式智能:岩浆集成了言语和时空智能,以了解图像和视频,并将外部目标转换为行动计划:模型可以在数字(例如Web Navigation)和物理(例如通用和机器人操纵)环境中起作用。结合了文本,图像和动作的训练:该模型可在拥抱面和AI II Foundry,以及相关的代码和演示区域:岩浆可用于标题,视频问题和答案,UI导航和机器人的操作:该模型主要用于研究。除现有代理数据外,培训策略还可以通过使用未标记的视频来改善概括。
  • 多模式智能:岩浆整合了言语和时空智能,以了解图像和视频,并将外部目标转换为行动计划。
  • 多模式智能
  • 广泛的环境适应:该模型可以在数字(例如Web导航)和物理(例如机器人操纵)环境中起作用,类似于人类能力。
  • 广泛的环境改编
  • 创新的全面:岩浆使用大型的异质锻炼数据和通用的爆炸镜头,结合了文本,图像和动作的训练。
  • 创新的TREIGHT
  • 可访问性:该模型可在拥抱面和Azure AI Foundry,带有相关的代码和演示。
  • 可用性
  • 应用:岩浆可用于标题,视频问题和答案,UI导航和机器人操纵。
  • 应用程序
  • 研究重点:该模型主要用于多模式AI的研究目的,尤其是代理环境。
  • 研究重点
  • 可伸缩性:训练策略允许通过使用未标记的视频除现有代理数据外改进概括。