- 具有加热,通风,空调(HVAC)的灵活性;水加热,电动汽车,光伏(PV)和电池 - 衡量乘员的舒适性和弹性 - 从单个设备到社区规模分析的尺度 - 与控制器,HEMS和分配网格模型集成在一起。
。cc-by-nc-nd 4.0国际许可证(未经同行评审证明)获得的是作者/资助者,他授予Biorxiv授予Biorxiv的许可,以永久显示预印本。这是该版本的版权持有人,该版本发布于2024年11月18日。 https://doi.org/10.1101/2024.11.17.624051 doi:Biorxiv Preprint
最近,扩散模型已成为强大的生成模型类别。尽管他们成功,但对他们的语义空间的理解仍然有限。这使得在没有其他培训的情况下,获得精确且脱节的图像生成,尤其是以无监督的方式而挑战。在这项工作中,我们从有趣的观察中提高了对它们的语义空间的理解:在一定范围的噪声水平中,(1)扩散模型中学习的后均值预测指标(PMP)是局部线性的,(2)其Jacobian的单数矢量位于其低度语义语义下集中。我们提供了坚实的理论基础,以证明PMP中的线性和低级别的合理性。这些见解使我们能够提出一种无监督的,单步的,无训练的LO W-rank Co n-trollable图像编辑(LOCO编辑)方法,用于在扩散模型中精确局部编辑。LOCO编辑确定了具有良好属性的编辑说明:同质性,可传递性,合成性和线性性。Loco编辑的这些属性从低维语义子空间中受益匪浅。我们的方法可以进一步扩展到各种文本到图像扩散模型(T-Loco Edit)中的无监督或文本监督编辑。最后,广泛的经验实验证明了Loco编辑的有效和效率。可以在项目网站上找到代码和ARXIV版本。1
摘要 - 评估和培训自主驾驶系统需要多样化且可扩展的角案例。但是,大多数现有场景生成方法都缺乏可控性,准确性和多功能性,从而导致产生不令人满意的结果。受图像生成中Draggan的启发,我们提出了DragTraffic,这是基于条件扩散的广义,交互式和可控制的交通场景生成框架。dragtraffic使非专家可以通过自适应混合物专家体系结构为不同类型的交通代理生成各种逼真的驾驶场景。我们采用回归模型来基于条件扩散模型提供一般的初始解决方案和改进程序,以确保多样性。通过交叉注意来引入用户注定的上下文,以确保高可控性。在现实世界中的数据集上进行的实验表明,拖拉法在真实性,多样性和自由方面优于现有方法。演示视频和代码可在https://chantss.github.io/dragtraffic/上找到。
生成高质量的艺术肖像视频是计算机图形和视觉中的重要且理想的任务。尽管已经提出了一系列成功的肖像图像图像模型模型,但这些面向图像的方法在应用于视频(例如固定框架尺寸,面部对齐,缺失非种族细节和时间不一致的要求)时具有明显的局限性。在这项工作中,我们通过引入一个新颖的Vtoonify框架来研究具有挑战性的可控高分辨率肖像视频风格转移。具体而言,Vtoonify利用了基于编码器提取的多尺度内容功能的高质量艺术肖像来利用型号的中高分辨率层,以更好地保留框架详细信息。结果完全卷积体系结构接受可变大小的视频中的非对准面孔作为输入,从而有助于完整的面部区域,并在输出中自然动作。我们的框架与现有的基于样式的图像图像模型兼容,以将其扩展到视频化,并继承了这些模型的吸引力,以使其具有柔性风格的颜色和强度控制。这项工作分别为基于收藏和基于典范的肖像视频风格转移而建立在Toonify和Dualstylegan的基于Toonify和Dualstylegan的Vtoonify的两个实例化。广泛的实验结果证明了我们提出的VTOONIFY框架对现有甲基的有效性在生成具有灵活风格控件的高质量和临时艺术肖像视频方面的有效性。代码和预估计的模型可在我们的项目页面上找到:www.mmlab-ntu.com/project/vtoonify/。
我们考虑通过文本指导将几何细节添加到3D对象网格的问题。文本到3D生成建模已成功应用于计算机视觉[Poole等。2023;张等。2024],计算机图形[Khalid等。2022]和地理处理[Gao等。2023; Xu等。2024]应用。这些方法着重于直接从文本中生成3D网格[Poole等。2023; Wang等。2023]没有为用户提供控制输出形状粗糙结构的能力,从而限制了需要仔细控制生成过程的艺术家的实际实用性。其他方法着重于生成3D网格的纹理[Cao等。2023;理查森等。2023],但它们在几何形状上没有执行任何变化。虽然有一些方法[Gao等。2023; Metzer等。2023]向用户提供控制并能够修改给定形状的几何形状,这些方法通常很慢,因为它们依赖于昂贵的得分蒸馏采样[Poole等。2023]。在本文中,我们提出了一种创建3D对象与丰富几何细节的方法,同时允许用户保留对全局形状结构(通过输入粗网格)和本地几何细节(通过输入文本提示)的控制。随着文本引导的生成方法的最新成功[Metzer等。2023; Poole等。2023;理查森等。2023; Wang等。2024;张等。2023],我们在大型预训练的文本对图模型上构建了我们的方法[Rombach等。2022]并使用语言指导几何细节的生成。我们的公式不需要配对的粗几何图和细几何训练数据,而是使用大型预训练的文本对图像模型作为监督,以指导通过可区分的渲染器添加几何细节的过程。我们的主要见解源于以下事实:训练以深度信息指导的文本对图像生成的模型[Mou等。2023]最终创建包含其他几何提示的图像。如图2所示,这些提示是如此突出,即使是现成的正常估计模型也可以提取它们。即,即使小鼠图像仅从三个球体产生,其正常估计(最右图像)显示了与描绘眼睛,鼻子和耳朵的表面相对应的正态。但是,此过程只能从单个角度创建可见的细节,而我们希望将细节添加到给定形状的整个可见表面。我们的方法在三个阶段中将几何详细信息添加到输入网格中。第一阶段基于输入文本提示和输入粗网格生成单视RGB图像。此RGB图像可以看作是如何将其添加到输入网格的几何详细信息的预览。第二阶段根据第一阶段和输入粗网格的单视输出进行多视图生成。第三阶段根据第二阶段的多视图生成来完善输入网格的几何细节。由于每个阶段的输出是非提交的,人类可理解的图像或效果图,因此此属性允许在完成之前的早期瞬间,以便用户决定更改参数或返回并更改/修改输入。此外,前两个阶段仅涉及运行预训练网络的推断,最后阶段直接在网格上运行。每个阶段都可以在几秒钟内完成,因此允许我们的方法用于支持
关键的理论框架提出,研究特定发展时期暴露于特定维度的压力的影响可能会对风险和复原力的过程产生重要的见解。利用 N = 549 名年轻人的样本,他们通过完成在线调查提供了他们一生中暴露于多个维度创伤压力的详细回顾历史以及他们当前创伤相关症状的评分,我们在此测试个人对其一生压力是可控的还是可预测的感知是否缓冲了成年期评估的创伤相关症状的影响。此外,我们测试了在幼儿期、中童期、青春期和青年期压力的背景下评估时这种调节效应是否不同。与假设一致,结果强调压力源可控性和压力源可预测性都可以缓冲创伤压力暴露对创伤相关症状的影响,并表明这种缓冲作用的效力在不同的发展时期有所不同。利用一生中压力暴露的维度评定来探究压力后结果的异质性——并且至关重要的是,考虑暴露维度与压力发生时的发展时期之间的相互作用——可能会增加对创伤压力后风险和恢复力的理解。
抽象扩散模型最近成为强大的生成模型,在跨域中产生了高保真样本。尽管如此,他们仍面临两个关键挑战,包括改善时必的迭代生成过程以及控制和控制生成过程。现有的调查提供了扩散模型进步的广泛概述。但是,它们缺乏全面的覆盖范围,专门针对可控生成的技术。本调查旨在通过在扩散模型中对可控生成进行全面且连贯的审查来解决这一差距。我们为扩散模型提供了定义受控生成的详细分类学。可控的生成是根据公式,方法和评估指标分类的。通过列举用于增强控制的方法的方法范围,我们旨在将可控的扩散生成作为一个独特的子场保证专用焦点。在这项调查中,我们将最新结果与之相关,提供了对控制可容纳扩散模型产生的专门处理,以及大纲限制和未来的方向。为了证明适用性,我们突出显示了用于主要计算机视觉任务应用程序的可控扩散技术。通过巩固可控扩散模型的方法和应用,我们希望能在可靠且可扩展的可控生成中催化进一步的创新。
在过去,将图像栩栩如生被认为是魔术。在传统的中国故事“魔术刷妈的玛利安”中,作者想象着一支魔术笔可以直接绘制活着的照片。巧合的是,哈利·波特(Harry Potter)的故事创造了一个死去的祖先生活在墙壁绘画中的世界。除了小说之外,实现这一目标的探索从未停止。1878年,穆布里奇(Muybridge)提出了一个名为“马运动的马”的著名实验,该实验连续显示了一系列连续的跑步马的图片,可以被视为视频。随着数字设备的开发,当前方法试图使用计算机视觉算法[8,13,16,17,21,21,24,24,27,32,32,32,34,36,40,50]。但是,它面临着几个限制。一方面,这些方法通常集中在有限类别的动画对象上,例如流体[16、24、25],人毛[37]和人体/脸部[6,8,9,13,13,17,27,27,32,34,36,36,50]。由于每种特定类型的领域知识,这些方法通常具有完全可控制的场景能力。,例如,sadtalker [50]可以通过音频和给定的脸产生准确的人脸动画。text2cinemagraph [25]使用文本描述来阐明水的自然动画。对于控制能力,这些方法通常遵循通过自我监督分解学习视频,然后通过新驾驶信号进行动画的规则。但是,由于先验自然动画的限制,由于一般域知识的多样性,这些方法在一般图像空间中失败。与以前的内域图像动画不同,基于当前扩散的图像 - to-video(i2v)方法学会以最终的方式从图像中生成视频。多亏了文本对图像模型的大规模生成之前,即稳定扩散[29],这些方法[1,2,7,11,39]已证明了开放域图像动画的可能性。但是,它们生成的内容可能与给定的图像[1,2,11,39]不同,并且通常通过文本说明[1,2,39]或仅简单的空闲动画[7]产生简单的动作。这些缺点限制了其用于现实世界图像动画任务的应用程序,在该任务中,用户通常需要像以前的内构象中图像动画算法一样创建更可控制的视频。利用域中图像动画和图像到视频的几代,我们很好奇:是否有一个通用的图像动画框架
摘要Moiré超级晶格是通过精确堆叠范德华(VDW)层设计的,对探索密切相关的1-4和拓扑现象的巨大承诺具有巨大的希望。但是,这些应用已通过常见的制备方法阻止了:苏格兰胶带去角质单层的撕裂7。它具有低效率和可重复性8,以及扭曲角度不均匀性,界面污染9,微米尺寸8的挑战,以及在升高温度下脱离twist的趋势10。在这里,我们报告了一种有效的策略,可以构建具有高产量吞吐量,接近统一的收益率,原始接口,精确控制的扭曲角度和宏观尺度(至百万计)具有增强的热稳定性的高度一致的VDWMoiré结构。我们进一步证明了各种VDW材料的多功能性,包括过渡金属二甲化物,石墨烯和HBN。Moiré结构的膨胀尺寸和高质量的大小和高分辨率映射可将相互空间回折的晶格和具有低能电子衍射(LEED)和角度分辨光发射光谱光谱光谱(ARPES)的Moiré迷你带结构进行高分辨率映射。该技术将在基本研究和互惠设备的大规模生产中都有广泛的应用。主要的莫伊尔超晶格是由两个晶格晶格平面之间的界面干扰引起的,这些晶格晶格平面与晶格常数和/或对齐角不同。具有可调的带填充和掺杂条件,Moiré超级晶格成为研究电子11,Ickitons 12,Solitons 13和拓扑带结构的集体行为的多功能平台。6,14在特定的扭曲角度(即范德华(VDW)双层界面的魔法角度),这些超级峰值大大降低了电子动能,从而使库仑相互作用占主导地位,从而促进了强电子相关性,从而导致了FERMI水平附近的平坦电子带。15,16除了双层外,最近的实验发展正在探索混合尺寸系统中的Moiré系统,具有更健壮的超导性和更丰富的兴奋性物理学16-19。例如,为扭曲的石墨烯/石墨结构展示了魔术角的Van Hove奇异性。20在石墨烯/石墨系统上的最新传输测量图说明了单个准二维杂交结构的形成,这是通过栅极可调的Moiré电位和石墨表面状态组合的21,22,其中散装晶体的性质被超级晶体势能调整为在界面处的超级乳势。