在超过1fps

机器学习系统识别视频中发生的事件的能力对于基于AI的视频生成的未来至关重要 - 尤其是因为视频数据集需要准确的字幕才能产生符合用户请求的模型,并且不会过分幻觉。在Unite.ai上首先出现在超过1fps上的标题视频的挑战的挑战。

来源:Unite.AI

机器学习系统识别视频中发生的事件的能力对于基于AI的视频生成的未来至关重要 - 尤其是因为视频数据集需要准确的字幕才能产生符合用户请求的模型,并且不会过分幻觉。

幻觉

Google的VidreCap项目中的字幕模式的示例。来源:https://sites.google.com/view/vidrecap

Google的VidreCap项目中的字幕模式的示例。

手动为有效培训数据集所需的视频规模标题是一个不合理的前景。尽管可以训练AI系统为自动捕获视频进行训练,但仍需要许多人类生成的例子作为地面真理,以获取多样性和覆盖范围。

更重要的是,几乎每个基于AI的视频捕捉模型都以1FPS运行,这不是足够的捕获速率来辨别许多情况下的变化:情感识别系统的突然微表达变化;高速运动(例如篮球)的快速活动;暴力运动;在戏剧性电影中快速剪裁,其中诸如Pyscenedect等系统可能无法识别它们(或未使用);以及许多其他关注窗口显然需要更加激烈的情况。

在1fps pyscenedetect

单击要播放。当亚历克斯·希金斯(Alex Higgins)在1982年对阵雷·雷·雷登(Ray Reardon)对阵雷·雷·雷登(Ray Reardon)的世界上最慢的运动之一,这是世界上最慢的运动之一。资料来源:https://wwwwww.youtube.com/watch?v=_v=_1puqkno_ok

单击要播放。 在1982年亚历克斯·希金斯(Alex Higgins)在对阵雷·雷登(Ray Reardon)的世界冠军赛中,快速但改变了世界上最慢的运动之一。

快速移动并破坏逻辑

上下文窗口

F-16

在16fps 量化

超越扩展

他们说:

新论文的标题为“提高LLM视频理解,每秒16帧,来自Tsinghua大学和Bytedance的八位作者。

新纸