详细内容或原文请订阅后点击阅览
使用 LLM 和 TF-IDF 自动进行视频分章
将原始记录转换为结构良好的文档照片由 Jakob Owens 在 Unsplash 上拍摄视频章节划分是将视频分割成不同章节的任务。除了像 YouTube 章节那样用作导航辅助之外,它还是一系列下游应用的核心,从信息检索(例如 RAG 语义分块)到引用或摘要。在最近的一个项目中,我需要自动执行此任务,但对可用的选项有限感到惊讶,尤其是在开源领域。虽然一些专业工具或付费 API 提供了此类服务,但我找不到任何提供足够强大和准确解决方案的库或教程。如果您知道任何内容,请在评论中分享!如果您想知道为什么不简单地将记录复制并粘贴到大型语言模型 (LLM) 中并要求提供章节标题,那么由于两个原因,这样做不会有效。首先,LLM 无法始终如一地保留时间戳信息以将其链接回章节标题。其次,在处理长篇抄本时,LLM 经常会忽略重要部分。因此,我最终设计了一个自定义工作流程,依靠 LLM 执行不同的语言处理子任务(文本格式化、段落结构化、章节分段和标题生成),并依靠 TF-IDF 统计数据在段落结构化后添加时间戳。LLM 和 TF-IDF 的组合允许高效地编辑和构建原始抄本,同时保留时间戳。res
来源:走向数据科学工作流程中的关键步骤在于在将段落分为章节中,然后将段落分为章节(步骤2)。请注意,这两个步骤可能依赖于不同的LLM:快速,便宜的LLM,例如Llama 3 8B,用于简单的文本编辑和段落标识的任务,以及更复杂的LLM,例如GPT-4O-MINI,用于生成内容。在两者之间,TF-IDF用于将时间戳信息添加到结构化段落中。
帖子的其余部分更详细地描述了每个步骤。
查看随附的GitHub存储库和COLAB笔记本,以独自探索!
GitHub存储库和COLAB笔记本1)获取视频/音频成绩单
让我们以Alexander Amini和Ava Amini(根据MIT许可证获得许可)的“ MIT 6.S191:深度学习概论”课程的第一个演讲。
第一个讲座 Introtodeplearning.com ( 根据MIT许可证获得许可请注意,视频描述中已经提供了章节。
这为我们提供了一个基线,可以在本文稍后在本文中进行定性比较我们的章节。
YouTube成绩单API
对于YouTube视频,通常由YouTube提供自动生成的成绩单。检索该成绩单的一种方便方法是调用python youtube_transcript_api库的get_transcript方法。该方法将YouTube Video_ID库作为参数:
get_transcript youtube_transcript_api video_id# https://www.youtube.com/watch?v=ErnWZxJovaMvideo_id = "ErnWZxJovaM" # MIT Introduction to Deep Learning - 2024# Retrieve transcript with the youtube_transcript_api libraryfrom youtube_transcript_api import YouTubeTranscriptApitranscript = youtubetranscriptapi.get_transcript(video_id,语言= [“ en”])