详细内容或原文请订阅后点击阅览
使用 Amazon SageMaker 中的音频和视频分割功能,通过 RLHF 增强语音合成和视频生成模型
在本文中,我们将展示如何使用 SageMaker Ground Truth 实现音频和视频分割解决方案。我们将指导您使用 AWS CloudFormation 部署必要的基础设施、创建内部标记团队以及设置您的第一个标记作业。在本文结束时,您将拥有一个功能齐全的音频/视频分割工作流程,您可以根据各种用例进行调整,从训练语音合成模型到提高视频生成能力。
来源:亚马逊云科技 _机器学习随着生成式 AI 模型在创建多媒体内容方面取得进展,好输出与卓越输出之间的区别往往在于只有人类反馈才能捕捉到的细节。音频和视频分割提供了一种结构化的方法来收集这种详细的反馈,允许模型通过从人类反馈 (RLHF) 和监督微调 (SFT) 进行强化学习来学习。注释者可以精确标记和评估音频或视频内容中的特定时刻,帮助模型了解什么能让内容让人类观众和听众感到真实。
以文本到视频生成为例,模型不仅需要学习生成什么,还需要学习如何保持一致性和随时间自然流动。在创建一个人执行一系列动作的场景时,动作的时间、视觉一致性和过渡的平滑度等因素都会影响质量。通过精确的分割和注释,人类注释者可以对每个方面提供详细的反馈,帮助模型了解是什么让生成的视频序列感觉自然而不是人造的。同样,在文本转语音应用中,要理解人类语音的细微差别(从短语之间的停顿长度到情绪基调的变化),需要在片段级别提供详细的人工反馈。这种精细的输入有助于模型学习如何产生听起来自然、节奏适当且情感一致的语音。随着大型语言模型 (LLM) 越来越多地集成更多多媒体功能,人工反馈在训练它们生成符合人类质量标准的丰富多模式内容方面变得更加重要。
Amazon SageMaker Ground Truth RLHF 自定义人工注释工作流程 GitHub 存储库 AWS CloudFormation Wavesurfer.js