基于扩散的生成建模的最新进展导致了文本对视频(T2V)模型的开发,这些模型可以在文本提示下生成高质量的视频。这些T2V模型中的大多数通常会产生单场视频剪辑,该视频片段描绘了执行特定动作的实体(例如,“红熊猫爬树”)。但是,由于它们在现实世界中无处不在(例如,“红色熊猫爬树”,然后是“红熊猫睡在树的顶部”)。要从验证的T2V模型中生成多场景视频,我们介绍了IME IGNED C APTIONS(TALC)框架。具体来说,我们增强了T2V体系结构中的文本调节机制,以识别视频场景和场景描述之间的时间对齐。例如,我们调节生成视频的早期和后期场景的视觉特征,其中包括第一个场景描述的表示(例如,“红色熊猫爬树”)和第二个场景描述(例如,“红色熊猫睡在树的顶部”)。因此,我们表明T2V模型可以生成遵守多场曲线文本描述并在视觉上保持一致的多场景视频(例如,实体和背景)。,我们使用TALC框架使用多场景视频文本数据进行预验证的T2V模型。我们表明,滑石粉模型的表现优于基线方法,总分中的基线方法平均使用人类评估来平均视觉一致性和文本依从性。项目网站是https://talc-mst2v.github.io/。
学习障碍是指在理解或使用口头或书面语言方面所涉及的一种或多种基本心理过程的障碍,表现为听、想、说、读、写、拼写或进行数学计算的能力不完善……
盲人用户依靠替代文本 (alt-text) 来理解图像;然而,alt-text 经常缺失。AI 生成的字幕是一种更具可扩展性的替代方案,但它们往往会遗漏关键细节或完全不正确,而用户可能仍然会错误地相信这些细节。在这项工作中,我们试图确定如何通过额外的信息帮助用户更好地判断 AI 生成的字幕的正确性。我们开发了 ImageExplorer,这是一个基于触摸的多层图像探索系统,允许用户探索图像的空间布局和信息层次结构,并在一项有 12 名盲人参与者的研究中将其与流行的基于文本 (Facebook) 和基于触摸 (Seeing AI) 的图像探索系统进行了比较。我们发现,探索通常能够成功地激发人们对不完美字幕的怀疑。此外,许多参与者更喜欢 ImageExplorer 的多层次和空间信息呈现,以及 Facebook 的摘要和易用性。最后,我们确定了针对盲人用户的有效且可解释的图像探索系统的设计改进。
盲人用户依靠替代文本 (alt-text) 来理解图像;然而,替代文本经常缺失。AI 生成的字幕是一种更具可扩展性的替代方案,但它们经常会遗漏关键细节或完全不正确,用户可能仍然会错误地相信它们。在这项工作中,我们试图确定其他信息如何帮助用户更好地判断 AI 生成的字幕的正确性。我们开发了 ImageExplorer,这是一个基于触摸的多层图像探索系统,允许用户探索图像的空间布局和信息层次结构,并在一项有 12 名盲人参与者的研究中将其与流行的基于文本 (Facebook) 和基于触摸 (Seeing AI) 的图像探索系统进行了比较。我们发现探索通常能够成功地鼓励人们对不完美的字幕持怀疑态度。此外,许多参与者更喜欢 ImageExplorer,因为它具有多层次和空间信息呈现,而 Facebook 则因为它具有摘要和易用性。最后,我们确定了针对盲人用户的有效且可解释的图像探索系统的设计改进。
这些前瞻性陈述受风险,不确定性和假设的约束,其中一些是我们无法控制的。实际结果可能与此类陈述所预测的结果有重大不同,我们报告的结果不应被视为未来绩效的指示。可能导致实际结果与此类陈述预测或暗示的结果不同的潜在风险和不确定性包括:竞争性压力,技术发展,我们确保和保留客户的能力,以及我们需要支出资本以适应业务的增长,以及与我们的持续企业以及我们的持续企业相关的范围和不确定性的“风险”以及“以及在我们的持续企业中”以及“以及在我们的持续范围内进行的”以及“以及在我们的持续范围内”的运营以及“运营”,以及“在我们的持续范围内”,以及“ captions”以及“ captions”以及“ captitions”以及“ captions”以及“运营”的范围,以及“ CAPTIONS”以及“ CAPTIONS”以及“ captions”。 year ended December 31, 2023, filed with the Securities and Exchange Commission (“SEC”) on April 26, 2024, and “Risk Factors” in the Shareholder Circular filed as Exhibit 99.1 to our Current Report on Form 6-K dated February 8, 2024, which are available on our investor relations website at https://group.nebius.com/sec-filings and on the SEC website at https://www.sec.gov/。
图像字幕使用视觉语言预先训练的模型(VLP)(例如Blip)从图像中生成描述性句子,该模型已得到很大改善。然而,当前的方法缺乏图像中描述的文化元素的详细描述标题,例如亚洲文化群体的人们穿着的传统服装。在本文中,我们提出了一个新的框架,具有文化意识的图像字幕(CIC),该框架生成字幕并描述从代表文化的图像中的文化视觉元素中提取的文化元素。受到通过适当提示来构建视觉模式和大语言模型(LLM)的方法的启发,我们的框架(1)基于图像中的文化类别产生问题,(2)提取文化的视觉问题(VQA)中的文化vi sual元素(VQA),并使用生成的问题以及(3)具有文化文化 - 瓦拉避难所使用llms的文化范围。我们对来自4个不同文化群体的45名参与者进行的人类评估对相应的文化有很高的了解,这表明,与基于VLP的图像字幕基线相比,我们提出的框架会产生更文化的描述性标题。可以在https://shane3606.github上找到。io/cic。
摘要 - 这篇文章介绍了一种新颖的图像到语音生成方法,旨在使用深度学习技术将图像转换为文本字幕以及尼泊尔语言的口头描述。通过利用计算机视觉和自然语言处理,该系统分析图像,外观功能,生成人类可读字幕并产生可理解的语音输出。实验利用了图像字幕生成的最先进的变压器架构,并由Resnet和ExcilityNet作为特征提取器补充。BLEU评分用作生成字幕的评估度量。BLEU-1,BLEU-2,BLEU-3和BLEU-4 N-gram所获得的BLEU得分分别为0.4852、0.2952、0.181和0.113。预估计的Hifigan(Vocoder)和Tacotorn2用于文本进行语音合成。所提出的方法有助于尼泊尔语言AI应用的未置换域,旨在提高对尼泊尔语人群的可访问性和技术包容性。
社交媒体内容示例 — 2025 年 1 月联合抗击流感 执行摘要:1 月是流感、新冠肺炎和呼吸道合胞病毒的高发月份之一,这些疾病导致全国儿童和成人的住院率上升。美国医院协会正在努力鼓励普通民众,特别是符合条件儿童的父母和最易感人群,接种流感和新冠肺炎疫苗。以下是社交媒体帖子和个性化图形示例,用于宣传和倡导新冠肺炎和流感疫苗 — 我们鼓励您在社交媒体上使用这些帖子和图形来帮助传播信息。所有图形和标题都可以发布到任何社交媒体平台,并可以优化标题以在每个相应平台上使用。网络链接(请使用这些链接获取所有内容):TWITTER/X:https://www.aha.org/ahia/promoting-healthy-communities/united-against- #flu?utm_source=twitter&utm_medium=organic&utm_campaign=uaf FACEBOOK:https://www.aha.org/ahia/promoting-healthy-communities/united-against- #flu?utm_source=facebook&utm_medium=organic&utm_campaign=uaf