地点:新建筑物107室,IIS,随着时间的时间:星期三,09:00-12:00主席:Jun-Cheng Chen博士(主席)Hen-Hsen Huang博士Wen-Hung Liao博士Yan-tsung Peng博士Li Su Su Su Su Su 1.多媒体介绍1.1。什么是多媒体及其与生成AI的联系?1.2。多媒体应用程序的概述1.3。多媒体研究资源2。多媒体基础2.1。图形和图像数据表示2.2。图像和视频中的颜色2.3中的颜色。视频2.4中的基本概念。数字音频的基础知识3。社会多媒体分析中的机器学习和深度学习3.1。机器学习基础3.2。深度学习基础3.3。无监督/半监督/监督学习等。4。多媒体处理和编码4.1。视频编码基础4.2。无损压缩和有损压缩4.3。转换编码4.4。运动补偿预测编码
人工智能无处不在,帮助和保护着社会,对吧?仅用十二秒,人工智能就可以根据一个人的语音(无论说了什么)检测酒精中毒并挽救因醉酒行为而受到威胁的生命。人工智能的最新进展已经达到了这样的程度:这种技术不仅存在,而且价格低廉、即时、易于获取、越来越准确,并且可能无法检测到。然而,这种语音分析也可能使主体受到指控,并可能泄露高度个人信息,同时绕过典型的宪法保护。应该质疑这种技术,以免社会用编码程序取代人类判断,这些程序抹杀隐私并误判性格——对于传统上代表性不足的人群而言,这种做法往往具有歧视性。语音分析“大数据”突破的必要伴侣是对这些进步如何调整个人权利的深思熟虑的评估。从第一修正案的自由到第十四修正案的正当程序和平等保护,用于识别酒精醉酒的基于音频的深度学习算法提出了必须解决的宪法挑战。本文就是这样做的。
深度伪造 给深度伪造添加水印可能有助于识别一些人工智能生成的音频、照片和视频,但它并不能解决这些内容的创作和传播背后的恶意,尤其是在政治背景下。在政治领域,不良行为者可能会部署深度伪造,以虚假的方式展示公众人物说或做他们从未做过的事情,目的是左右舆论或影响选举。即使水印表明视频是人工智能生成的,这些人仍然可以传播它来误导观众,因为他们依赖许多人会忽视或误解水印的可能性。同样,当深度伪造的目的是让某人难堪或骚扰时,即使水印成功地提醒大多数人内容是由人工智能生成的,深度伪造仍可能达到其预期效果。此外,使用 GenAI 并不是制作看似逼真的欺骗性媒体的唯一方法。个人可以手动创建欺骗性媒体,例如录制虚假音频的语音模仿者,或使用非人工智能数字工具,例如照片编辑软件来创建误导性图像。
音频深度伪造对我们日常交流中的信任构成了日益严重的威胁。为此,研究界开发了各种各样的检测技术,旨在防止此类攻击欺骗用户。不幸的是,这些防御措施的创建通常忽略了系统中最重要的元素——用户自己。因此,尚不清楚当前的机制是增强、阻碍还是仅仅与人类对深度伪造的分类相矛盾。在本文中,我们进行了首次大规模的深度伪造检测用户研究。我们招募了 1,200 多名用户,并向他们展示了来自三个被引用最多的深度伪造数据集的样本。然后,我们定量比较性能并定性进行主题分析,以激发和理解用户决策背后的原因以及与机器分类的差异。我们的结果表明,用户正确分类人类音频的比率明显高于机器学习模型,并且在进行分类时依赖语言特征和直觉。然而,用户也经常被对生成音频能力的先入之见所误导(例如,口音和背景声音代表人类)。最后,机器学习模型的缺陷在于
List of figures Figure 1 - Reduction of greenhouse gases by 2050 - source: SNBC 2 AMS scenario – MTES Figure 2 – CDN architecture for broadcasting content Figure 3 – World 2018 emissions in CO2 kg eq for 1 hour of streaming in UHD/4K on a TV (50" LED) via WiFi Figure 4 – France 2018 emissions in CO2 eq for 1 hour of streaming in UHD/4K on电视(50英寸LED)通过WiFi图5 - 格式的比例表示:从SD到8K图6 - 每类流派和过程的碳足迹,2017年和2019年 - 资料来源:Albert图7 - 音频 - 直接温室气体发射的视觉活动来源:欧洲统计局图8 - 音频的碳足迹等价 - 视觉扇区图9 - 法国电视天气报告的活动数据。资料来源:法国法国La Fabrique TV图10 - 制造足迹的年度结果:直接和间接排放图11 - 2030年列表的部分和完整的清醒场景
随着AI生成的Content(AIGC)的开发,文本与ADIO模型正在引起广泛关注。然而,由于自然语言的固有信息密度和有限的模型不明显的能力,这些模型要生成与人类偏好保持一致的音频。为了减轻此问题,我们删除了指挥棒,这是第一个框架,旨在增强使用人类偏爱的反馈来增强生成的音频和文本提示之间的对齐。我们的接力棒包括三个关键阶段:首先,我们策划了一个包含提示和相应生成的音频的数据集,然后根据人类的馈本进行注释。其次,我们使用构造的数据集引入了奖励模型,该数据集可以通过分配奖励输入文本审计对来模仿人类的喜好。最后,我们采用了奖励模型来微调现成的文本对原模型。实验结果表明,我们的指挥棒可以显着提高原始文本对原模型的发电质量,音频完整性,时间关系以及与人类偏爱的一致性。项目页面可从https://baton2024.github.io获得。
语音认知具有作为脑机接口的潜在应用,可以改善有沟通障碍人士的生活质量。虽然语音和静息状态脑电图被广泛研究,但在这里我们尝试探索与语音音频的静默区域相对应的“非语音”(NS)大脑活动状态。首先,研究语音感知以检查这种状态的存在,然后在语音想象中识别它。类似于如何使用语音活动检测来增强语音识别的性能,这里实施的脑电图状态活动检测协议用于提高想象语音脑电图解码的置信度。使用从实验室和商业设备收集的两个数据集对语音和 NS 状态进行分类。这样获得的状态序列信息进一步用于减少想象脑电图单元识别的搜索空间。跨受试者和会话可视化 NS 状态的时间信号结构和地形图。识别性能和观察到的视觉区别表明脑电图中存在静默特征。索引词:语音脑电图静默识别,脑机接口,两级动态规划
摘要:所有年龄段的人都可以从瑜伽的身心健康中受益。瑜伽姿势必须正确执行,尤其是在没有教练的情况下,以免对骨骼、肌肉和韧带造成伤害。因此,在图像处理的帮助下,使用人工智能和机器学习将有助于在没有现场教练的情况下向表演者提供反馈。所提出的系统旨在指导用户正确地执行瑜伽姿势,并在他们做错时纠正他们。以文本和音频的形式向用户提供反馈,这可以帮助练习者防止受伤,并增加练习瑜伽姿势的好处。通过从互联网上拍摄各种图像来创建不同瑜伽姿势的数据集。借助 OpenCV 和媒体管道,从网络摄像头的每个图像中找出数据点。现在将其加载到基于卷积神经网络的深度学习模型 (CNN) 中,该模型有助于识别姿势中的错误并产生错误百分比,并以文本或音频期望输出的形式向用户提供所需的反馈,其分类准确率约为 95%。关键词:实时姿势识别、瑜伽、活动识别、媒体管道和人体姿势估计
在肖像视频生成领域中,使用单个图像来生成肖像视频已经变得越来越普遍。一种常见的方法涉及利用生成模型来增强适配器的控制生成。但是,控制信号(例如,文本,音频,参考图像,姿势,深度图等)的力量可能会有所不同。在这些情况下,由于对较强的条件的干扰,较弱的条件通常难以有效,这在平衡这些条件方面构成了挑战。在我们在肖像视频生成方面的工作中,我们确定音频信号特别弱,通常被诸如面部姿势和参考图像之类的强信号所掩盖。但是,信号较弱的直接训练通常会导致收敛困难。为了解决这个问题,我们提出了V-Express,这是一种简单的方法,可以通过渐进式训练和条件辍学操作来平衡不同的控制信号。我们的方法逐渐通过弱条件实现有效的控制,从而获得了同时考虑面部姿势,参考图像和音频的发电能力。实验结果表明,我们的方法可以有效地生成由音频控制的肖像视频。此外,还提供了一种潜在的解决方案,以同时有效地利用各种强度的条件。
使用人工智能。——由候选人或委员会或代表候选人或委员会做出。根据该法案,如果个人、委员会或其他实体制作、发布或最初分发了合格的政治广告,则该合格的政治广告必须以清晰显眼的方式包含一份声明,说明该合格的政治广告全部或大部分由人工智能生成。如果合格的政治广告是图形通信,则声明的字体必须至少与图形通信中的大部分文本一样大,并且必须使用与所使用的语言相同的语言。如果合格的政治广告是音频通信,则声明必须在通信的开始或结束时以清晰可听和可理解的方式说出来,持续至少三秒钟,并使用与所使用的语言相同的语言。如果合格的政治广告是包含音频的视频通信,则声明必须以至少与大多数文本通信一样大的字体出现至少四秒钟,或者如果没有其他文本通信,则声明的大小必须适合普通观众阅读,在通信的开始或结束时以清晰可听和可理解的方式说出,持续至少三秒钟,并使用与视频通信中使用的语言相同的语言。违反这些要求的每个分发或向公众播出的合格政治广告都将被视为单独违法。违反这些要求的人将犯有以下罪行: