图4。Egovideo-VL模型的概述。 eGovideo-VL是一种旨在实时自我中心的理解和援助的多模式视觉语言模型。 该模型包含五个关键组件:(1)遵循Egovideo [58]的设计模态编码器,并包括一个视频编码器和用于多模式特征提取的文本编码器; (2)存储模块,该模块存储历史上下文以实现时间基础,摘要和个性化互动; (3)大型语言模型(LLM),该模型执行多模式推理和响应生成; (4)生成模块,该模块综合了视觉动作预测,以指导用户完成任务; (5)检索模块,该模块检索第三人称专家演示以补充以自我为中心的理解。Egovideo-VL模型的概述。eGovideo-VL是一种旨在实时自我中心的理解和援助的多模式视觉语言模型。该模型包含五个关键组件:(1)遵循Egovideo [58]的设计模态编码器,并包括一个视频编码器和用于多模式特征提取的文本编码器; (2)存储模块,该模块存储历史上下文以实现时间基础,摘要和个性化互动; (3)大型语言模型(LLM),该模型执行多模式推理和响应生成; (4)生成模块,该模块综合了视觉动作预测,以指导用户完成任务; (5)检索模块,该模块检索第三人称专家演示以补充以自我为中心的理解。