生成模型的最新进展导致了模型,这些模型既可以为大多数文本输入产生现实和相关的信息。这些模型每天都用于生成数百万张图像,并具有巨大影响诸如生成艺术,数字营销和数据增强等领域。鉴于它们的影响力,重要的是要确保生成的内容反映全球的伪影和周围环境,而不是过分代表世界的某些地区。在本文中,我们使用众包研究的研究衡量了通过dall·e 2产生的普通名词(例如房屋)的地理代表,以及稳定的扩散模型,其中包括27个国家 /地区的540名参与者。为了有意地指定没有国家名称的意见,生成的图像最反映了美国之后是印度的周围,而顶级世代很少反映出所有其他国家的周围环境(平均得分少于5分中的3个)。在输入中指定国家名称的代表性增加了1。平均在5-点李克特(Dall)的李子量表上为44点。75对于稳定的扩散,许多国家的超高分数仍然很低,这突出了将来模型在地理上更具包含的需求。最后,我们研究了量化使用用户研究的产生图像的地理代表性的可行性。1
文本对图像模型的当前指标通常依赖于不足以代表人类真正偏好的统计指标。尽管最近的工作试图通过人类注释的图像来学习这些偏好,但它们将人类偏好的丰富挂毯降低到单个总分。然而,当人类评估不同方面的图像时,偏好会有所不同。因此,为了学习多维人类偏好,我们提出了多维偏好评分(MPS),这是评估文本对图像模型的第一个多维偏好评分模型。MPS引入剪辑模型上的偏好条件模块,以学习这些不同的偏好。它是根据我们的多维人类偏好(MHP)数据集进行了训练的,该数据集包括607,541图像的四个维度(即美学,语义一致性,详细信息,详细质量和整体评估)的918,315个人类偏好选择(即,美学,语义一致性,细节质量和整体评估)。这些信息是由各种最新的文本对图像模型生成的。MPS在4个维度上的3个数据集上优于现有的评分方法,从而使其成为评估和改进文本对象的有希望的指标。该模型和数据集将被公开使用,以促进未来的研究。项目页面:https://wangbohan97.github.io/mps/。
现有的文本视频检索解决方案本质上是侧重于最大程度地提高条件可能性的模型,即P(候选人|查询)。虽然很简单,但这种事实上的范式却忽略了基本的数据分布p(查询),这使得识别出分布数据的挑战。为了解决这一限制,我们从生成观点创造性地解决了此任务,并将文本和视频之间的相关性建模为其关节概率P(候选人,查询)。这是通过基于扩散的文本视频检索框架(扩散-RET)来完成的,该框架将检索任务建模为从噪声中产生关节分布的过程。在训练过程中,从发电和犯罪的角度优化了Diffusionret,其发电机通过生成损失优化,并且具有对比度损失的训练的特征提取器。以这种方式,diffusionret巧妙地杠杆化了生成和歧视方法的优势。在五个常用的文本检索基准测试中进行了广泛的实验,包括MSRVTT,LSMDC,MSVD,ActivityNet字幕和DIDEMO,并具有出色的性能,证明了我们方法的效果。更加谨慎,没有任何修改,diffusionret甚至在外域检索设置中表现良好。我们认为这项工作带来了对相关领域的基本见解。代码可从https://github.com/jpthu17/diffusionret获得。
在 2024 财年,Visit Bend 坚定地致力于长期可持续发展,成为一个繁荣的旅游目的地。随着客房税和入住率趋于稳定(甚至由于营销支出减少和天气等因素而下降),团队继续专注于平衡、可持续的目的地管理。Visit Bend 推出了一个新网站,提供现代化的用户界面和内容,重点介绍负责任的旅游工作和行业合作伙伴。本德可持续发展基金向当地项目拨款近 70 万美元,改善了当地人和居民的可达性和整体体验。本德文化旅游基金向文化活动和组织拨款 40 万美元。Visit Bend 成为 Leave No Trace 的第一个官方目的地合作伙伴,并被评为 Leave No Trace 的年度目的地合作伙伴。这些努力将在未来几年对我们的社区产生积极影响,这只是 Visit Bend 在 2024 财年取得成功的几个例子。
尽管上下文化的语言模型最近在各种NLP任务上取得了成功,但语言模型本身仍无法捕获长长的多句文档的文本共同(例如,段落)。人类经常就发言之前就何种方式以及如何发言做出结构性决定。通过这种高级决策和以连贯的方式构建文本的指导性实现被称为计划过程。模型可以在哪里学习这样的高级相干?段落本身包含在这项工作中称为自upervision的各种形式的归纳相干信号,例如句子顺序,局部关键字,修辞结构等。以此为动机,这项工作为新的段落完成任务p ar -c om;在图形中预测蒙版的句子。但是,该任务遭受了预测和选择相对于给定上下文的适当局部内容。为了解决这个问题,我们提出了一个自我监督的文本计划,该计划可以预测首先说出的内容(内容预测),然后使用预测的内容指导验证的语言模型(表面实现)。SSPlanner在自动和人类评估中的段落完成任务上的基线生成模型优于基线生成模型。我们还发现,名词和动词类型的关键字的组合是最有效的内容选择。提供了更多内容关键字,总体发电质量也会提高。
# Springer-Verlag Berlin Heidelberg 2011 本作品受版权保护。保留所有权利,无论涉及全部还是部分材料,具体而言是翻译、重印、重新使用插图、朗诵、广播、以缩微胶片或任何其他方式复制以及存储在数据库中的权利。 仅根据 1965 年 9 月 9 日现行版本的德国版权法的规定,才允许复制本出版物或其中的部分内容,并且必须始终获得 Springer 的使用许可。违反者将根据德国版权法受到起诉。 本出版物中使用的一般描述性名称、注册名称、商标等并不意味着(即使在没有具体声明的情况下)这些名称不受相关保护法律和法规的约束,因此可以自由使用。
近年来,生成模型取得了重大进展,尤其是在文本到图像合成领域。尽管取得了这些进展,但医学领域尚未充分利用大规模基础模型的功能来生成合成数据。本文介绍了一种文本条件磁共振 (MR) 成像生成框架,解决了与多模态考虑相关的复杂性。该框架包括一个预先训练的大型语言模型、一个基于扩散的提示条件图像生成架构和一个用于输入结构二进制掩码的附加去噪网络。实验结果表明,所提出的框架能够生成与医学语言文本提示一致的逼真、高分辨率和高保真的多模态 MR 图像。此外,该研究根据文本条件语句解释了生成结果的交叉注意力图。这项研究的贡献为未来文本条件医学图像生成的研究奠定了坚实的基础,并对加速医学成像研究的进步具有重要意义。
• 使用潜意识、操纵或欺骗手段扭曲行为,妨碍知情决策,造成重大伤害。 • 利用与年龄、残疾或社会经济状况相关的弱点扭曲行为,造成重大伤害。 • 生物特征分类系统推断敏感属性(种族、政治观点、工会会员资格、宗教或哲学信仰、性生活或性取向),但标记或过滤合法获取的生物特征数据集,或执法部门对生物特征数据进行分类的情况除外。 • 社会评分,即根据社会行为或个人特征对个人或群体进行评估或分类,对这些人造成有害或不利的待遇。 • 仅根据分析或性格特征评估个人犯罪的风险,但用于增强基于与犯罪活动直接相关的客观、可验证事实的人类评估的情况除外。 • 通过从互联网或闭路电视录像中无针对性地抓取面部图像来编制面部识别数据库。 • 在工作场所或教育机构推断情绪,医疗或安全原因除外。 • 在公共场所为执法部门提供“实时”远程生物特征识别 (RBI),但以下情况除外:
摘要。视觉语言预处理(VLP)模型已在众多计算机视觉应用中被证明。在本文中,我们基于图像扫描和电子健康记录中的文本介绍,为医疗领域开发VLP模型,以促进计算机辅助诊断(CAD)。为了实现这一目标,我们介绍了MedBlip,这是一种轻巧的CAD系统,该系统启动了从架子冻结的预训练的图像编码器和大型语言模型中启动VLP。我们合并了一个MEDQFormer模块,以弥合3D医学图像和2D预训练的图像编码器和语言模型之间的差距。为了评估MEDBLIP的有效性,我们从五个公共阿尔茨海默氏病(AD)数据集中收集了30,000多个图像量:ADNI,NACC,OASIS,OASIS,AIBL和MIRIAD。在这个大规模的广告集中,我们的模型在健康,轻度认知障碍(MCI)和AD主题的零摄像分类中表现出了令人印象深刻的表现,并且还显示了其在M3D-VQA-AD数据集中的医学视觉问题An-Swering(VQA)中的能力。代码和预训练模型可在https://github.com/qybc/medblip上找到。
摘要。文本对图像合成是机器学习中最具挑战性和最受欢迎的任务之一,许多模型旨在提高该领域的性能。深融合生成的对抗网络(DF-GAN)是图像生成的直接但有效的模型,但它具有三个关键局限性。首先,它仅支持句子级文本描述,从而限制了其从文字级输入中提取细颗粒特征的能力。第二,可以优化残差层和块的结构以及关键参数,以提高性能。第三,现有的评估指标,例如FréchetInception距离(FID),倾向于不适当地强调无关紧要的功能,例如背景,当重点放在生成特定对象上时,这是有问题的。为了解决这些问题,我们引入了一个新的文本编码器,该编码器增强了具有处理单词级描述能力的模型,从而导致更精确和文本一致的图像生成。此外,我们优化了关键参数,并重新设计了卷积和残留网络结构,从而产生了更高质量的图像并减少了运行时间。最后,我们提出了一种量身定制的新评估理论,以评估生成图像中特定对象的质量。这些改进使增强的DF-GAN在有效地产生高质量的文本分配图像方面更有效。