文本对图像模型的当前指标通常依赖于不足以代表人类真正偏好的统计指标。尽管最近的工作试图通过人类注释的图像来学习这些偏好,但它们将人类偏好的丰富挂毯降低到单个总分。然而,当人类评估不同方面的图像时,偏好会有所不同。因此,为了学习多维人类偏好,我们提出了多维偏好评分(MPS),这是评估文本对图像模型的第一个多维偏好评分模型。MPS引入剪辑模型上的偏好条件模块,以学习这些不同的偏好。它是根据我们的多维人类偏好(MHP)数据集进行了训练的,该数据集包括607,541图像的四个维度(即美学,语义一致性,详细信息,详细质量和整体评估)的918,315个人类偏好选择(即,美学,语义一致性,细节质量和整体评估)。这些信息是由各种最新的文本对图像模型生成的。MPS在4个维度上的3个数据集上优于现有的评分方法,从而使其成为评估和改进文本对象的有希望的指标。该模型和数据集将被公开使用,以促进未来的研究。项目页面:https://wangbohan97.github.io/mps/。
van der waals异质结构中的Moiré超级晶格代表了高度可调的量子系统,在多体模型和设备应用中都引起了极大的兴趣。然而,在室温下,Moiré电位对光物质相互作用的影响在很大程度上仍然没有。在我们的研究中,我们证明了MOS 2 /WSE 2中的Moiré潜力促进了室温下层间激子(IX)的定位。通过执行反射对比光谱,我们证明了原子力显微镜实验支持的原子重建在修饰内部激子中的重要性。降低扭转角时,我们观察到IX寿命会更长,并且发光增强,表明诸如缺陷之类的非辐射衰减通道被Moiré电位抑制。此外,通过将Moiré超晶格与硅单模腔的整合,我们发现,使用Moiré捕获的IXS的设备显示出明显较低的阈值,与利用DelaCalized IXS的设备相比,较小的一个数量级。这些发现不仅鼓励在升高温度下在Moiré超晶格中探索多体物理学,而且还为利用光子和光电应用中的这些人工量子材料铺平了道路。
文本到图像生成模型正变得越来越流行,公众可以访问。由于这些模型看到大规模的部署,因此有必要深入研究其安全性和公平性,以免消散和永久存在任何形式的偏见。然而,存在的工作重点是检测封闭的偏见集,定义了先验的偏见,将研究限制为众所周知的概念。在本文中,我们解决了出现OpenBias的文本到图像生成模型中开放式偏见检测的挑战,该模型是一条新管道,该管道可识别和量化双质量的严重性,而无需访问任何预编译的集合。OpenBias有三个阶段。在第一阶段,我们利用大型语言模型(LLM)提出偏见,给定一组字幕。其次,目标生成模型使用相同的字幕绘制图像。最后,一个视觉问题回答模型认识到了先前提出的偏见的存在和范围。我们研究了稳定扩散1.5、2和XL强调新偏见的稳定扩散,从未研究过。通过定量实验,我们证明了OpenBias与当前的封闭式偏见检测方法和人类判断一致。
在 2024 财年,Visit Bend 坚定地致力于长期可持续发展,成为一个繁荣的旅游目的地。随着客房税和入住率趋于稳定(甚至由于营销支出减少和天气等因素而下降),团队继续专注于平衡、可持续的目的地管理。Visit Bend 推出了一个新网站,提供现代化的用户界面和内容,重点介绍负责任的旅游工作和行业合作伙伴。本德可持续发展基金向当地项目拨款近 70 万美元,改善了当地人和居民的可达性和整体体验。本德文化旅游基金向文化活动和组织拨款 40 万美元。Visit Bend 成为 Leave No Trace 的第一个官方目的地合作伙伴,并被评为 Leave No Trace 的年度目的地合作伙伴。这些努力将在未来几年对我们的社区产生积极影响,这只是 Visit Bend 在 2024 财年取得成功的几个例子。
文本驱动的3D场景生成技术近年来取得了迅速的进步。他们的成功主要是为了使用现有的生成模型进行迭代执行图像翘曲和介入以生成3D场景。但是,这些方法在很大程度上依赖于现有模型的外部,从而导致几何和外观中的错误积累,从而阻止模型在各种情况下使用(例如,户外和虚幻的SCE-Narios)。为了解决此限制,我们通常通过查询和聚集全局3D信息来完善新生成的本地视图,然后逐步生成3D场景。具体而言,我们采用基于三平面特征的NERF作为3D场景的统一表示,以限制全局3D的一致性,并提出一个生成的改进网络,通过从2D差异模型以及当前场景的全球3D信息中利用自然图像来综合具有更高质量的新内容。我们的广泛实验表明,与以前的方法相比,我们的方法支持各种各样的场景产生和任意相机传播,并具有提高的视觉质量和3D一致性。
文本对图像(T2I)合成是一项艰巨的任务,该任务是对文本和图像域及其关系进行建模。最近作品实现的图像质量的实质性改进为Nuberon应用程序铺平了道路,例如语言辅助图像编辑,计算机辅助设计,基于文本的图像检索和培训数据增强。在这项工作中,我们提出了一个简单的问题:与逼真的图像一起,我们是否可以以一种不受影响的方式获得任何有用的副产品(例如前景 /背景或多类分割掩码,检测标签,检测标签),这也将使其他计算机视觉任务任务和应用受益?试图回答这个问题,我们探索了从给定文本中的逼真的图像及其相应的前景 /背景分割掩码。为了实现这一目标,我们与GAN一起实验了共进行分割的概念。具体而言,提出了一种名为“共裂”启发的GAN(COS-GAN)的新型GAN结构,该结构同时从不同的噪声矢量中同时生成两个或多个图像,并利用图像特征之间的空间关注机制来生成逼真的分段掩码,以生成生成的Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Agens。这种架构的优点是两倍:1)生成的分割掩码可用于专注于前景和背景,以改善生成的图像的质量,2)分段蒙版可以用作其他任务的训练目标,例如访问本地化和分割。在CUB,Oxford-102和可可数据集上进行的广泛实验表明,Cos-Gan能够改善视觉质量,并为发电图像提供可靠的前景 /背景掩码。
现有的文本视频检索解决方案本质上是侧重于最大程度地提高条件可能性的模型,即P(候选人|查询)。虽然很简单,但这种事实上的范式却忽略了基本的数据分布p(查询),这使得识别出分布数据的挑战。为了解决这一限制,我们从生成观点创造性地解决了此任务,并将文本和视频之间的相关性建模为其关节概率P(候选人,查询)。这是通过基于扩散的文本视频检索框架(扩散-RET)来完成的,该框架将检索任务建模为从噪声中产生关节分布的过程。在训练过程中,从发电和犯罪的角度优化了Diffusionret,其发电机通过生成损失优化,并且具有对比度损失的训练的特征提取器。以这种方式,diffusionret巧妙地杠杆化了生成和歧视方法的优势。在五个常用的文本检索基准测试中进行了广泛的实验,包括MSRVTT,LSMDC,MSVD,ActivityNet字幕和DIDEMO,并具有出色的性能,证明了我们方法的效果。更加谨慎,没有任何修改,diffusionret甚至在外域检索设置中表现良好。我们认为这项工作带来了对相关领域的基本见解。代码可从https://github.com/jpthu17/diffusionret获得。
自动文本识别是一个困难但重要的问题。它可以概括为:如何使计算机能够识别预定义字母表中的字母和数字,可能使用上下文信息。已经进行了各种尝试来解决这个问题,使用不同的特征和分类器选择。自动文本识别系统在准确性方面已经达到了人类的表现,并且在单一大小、单一字体、高质量、已知布局、已知背景、文本的情况下,速度超过了人类的表现。当上述一个或多个参数发生变化时,问题变得越来越困难。特别是,尽管近四十年来不断进行研究,但要达到人类在识别不同大小、不同风格、未知布局、未知背景的草书方面的表现,远远超出了当今算法的范围。在本报告中,我们详细分析了该问题,介绍了相关困难,并提出了一个解决自动文本识别问题的连贯框架。
近年来,生成模型取得了重大进展,尤其是在文本到图像合成领域。尽管取得了这些进展,但医学领域尚未充分利用大规模基础模型的功能来生成合成数据。本文介绍了一种文本条件磁共振 (MR) 成像生成框架,解决了与多模态考虑相关的复杂性。该框架包括一个预先训练的大型语言模型、一个基于扩散的提示条件图像生成架构和一个用于输入结构二进制掩码的附加去噪网络。实验结果表明,所提出的框架能够生成与医学语言文本提示一致的逼真、高分辨率和高保真的多模态 MR 图像。此外,该研究根据文本条件语句解释了生成结果的交叉注意力图。这项研究的贡献为未来文本条件医学图像生成的研究奠定了坚实的基础,并对加速医学成像研究的进步具有重要意义。
Gregory G. Dess是德克萨斯大学达拉斯分校的Andrew R. Cecil管理主席。他的主要研究兴趣是战略管理,组织环境关系和知识管理。他在学术和从业者期刊上发表了许多有关这些主题的文章。他还在各种以从业者为导向和学术期刊的编辑委员会中任职。在2000年8月,他被入选《管理学院名人堂》作为其特许成员之一。DES教授在美国,欧洲,非洲,香港和澳大利亚进行了执行计划。在1994年,他是葡萄牙Oporto的富布赖特学者。2009年,他获得了伯尔尼大学(瑞士)的荣誉博士学位。他获得了华盛顿大学(西雅图)的工商管理博士学位,并获得了佐治亚理工学院的BIE学位。
