教AI给予更好的视频评论

虽然大型视觉模型(LVLM)可以在解释计算机视觉文献中一些更具山一个或挑战性的提交中有用的助手,但在某些领域中,它们正在陷入困境:确定随附新论文的任何视频示例的优点和主观质量*。这是提交的关键方面,因为科学论文[…]教授AI的文章首先在Unite.AI上出现了更好的视频评论。

来源:Unite.AI

虽然大型视觉模型(LVLM)可以在解释计算机视觉文献中一些更具山一个或挑战性的提交中有用的助手,但在某些领域中,它们正在陷入困境:确定随附新论文的任何视频示例的优点和主观质量*。

视频示例

这是提交的关键方面,因为科学论文通常旨在通过引人注目的文本或视觉效果或两者兼而有之产生兴奋。

但对于涉及视频综合的项目,作者必须显示实际的视频输出或驳回工作的风险;正是在这些演示中,大胆的主张与现实世界表现之间的差距最常变得很明显。

我读了这本书,看不到电影

当前,大多数流行的基于API的大型语言模型(LLM)和大型视觉语言模型(LVLMS)不会以任何方式,定性或其他方式直接分析视频内容。取而代之的是,他们只能分析相关的成绩单 - 也许是评论线程和其他严格的基于文本的辅助材料。

任何方式 文本

当被要求直接分析视频时,GPT-4O,Google Gemini和困惑的各种异议,而无需求助于成绩单或其他基于文本的资源。

但是,LLM可能会隐藏或否认其实际观看视频,除非您将其召唤出来:

被要求提供对新研究论文相关视频的主观评估,并伪造了一个真实的意见,Chatgpt-4O最终承认它无法真正直接观看视频。

尽管诸如ChatGpt-4O之类的模型是多模式的,并且至少可以分析单个照片(例如从视频中提取的框架,请参见上图),但即使存在一些问题:首先,有很少的基础可以使LLM的定性观点获得信誉,尤其是因为LLMS专注于“人们畅销”,而不是真诚的效果。

个人 俯卧 有一个时间方面 时间 人类 Yolo 平均水平的数字 可可