我们考虑通过文本指导将几何细节添加到3D对象网格的问题。文本到3D生成建模已成功应用于计算机视觉[Poole等。2023;张等。2024],计算机图形[Khalid等。2022]和地理处理[Gao等。2023; Xu等。2024]应用。这些方法着重于直接从文本中生成3D网格[Poole等。2023; Wang等。2023]没有为用户提供控制输出形状粗糙结构的能力,从而限制了需要仔细控制生成过程的艺术家的实际实用性。其他方法着重于生成3D网格的纹理[Cao等。2023;理查森等。2023],但它们在几何形状上没有执行任何变化。虽然有一些方法[Gao等。2023; Metzer等。2023]向用户提供控制并能够修改给定形状的几何形状,这些方法通常很慢,因为它们依赖于昂贵的得分蒸馏采样[Poole等。2023]。在本文中,我们提出了一种创建3D对象与丰富几何细节的方法,同时允许用户保留对全局形状结构(通过输入粗网格)和本地几何细节(通过输入文本提示)的控制。随着文本引导的生成方法的最新成功[Metzer等。2023; Poole等。2023;理查森等。2023; Wang等。2024;张等。2023],我们在大型预训练的文本对图模型上构建了我们的方法[Rombach等。2022]并使用语言指导几何细节的生成。我们的公式不需要配对的粗几何图和细几何训练数据,而是使用大型预训练的文本对图像模型作为监督,以指导通过可区分的渲染器添加几何细节的过程。我们的主要见解源于以下事实:训练以深度信息指导的文本对图像生成的模型[Mou等。2023]最终创建包含其他几何提示的图像。如图2所示,这些提示是如此突出,即使是现成的正常估计模型也可以提取它们。即,即使小鼠图像仅从三个球体产生,其正常估计(最右图像)显示了与描绘眼睛,鼻子和耳朵的表面相对应的正态。但是,此过程只能从单个角度创建可见的细节,而我们希望将细节添加到给定形状的整个可见表面。我们的方法在三个阶段中将几何详细信息添加到输入网格中。第一阶段基于输入文本提示和输入粗网格生成单视RGB图像。此RGB图像可以看作是如何将其添加到输入网格的几何详细信息的预览。第二阶段根据第一阶段和输入粗网格的单视输出进行多视图生成。第三阶段根据第二阶段的多视图生成来完善输入网格的几何细节。由于每个阶段的输出是非提交的,人类可理解的图像或效果图,因此此属性允许在完成之前的早期瞬间,以便用户决定更改参数或返回并更改/修改输入。此外,前两个阶段仅涉及运行预训练网络的推断,最后阶段直接在网格上运行。每个阶段都可以在几秒钟内完成,因此允许我们的方法用于支持
- 具有加热,通风,空调(HVAC)的灵活性;水加热,电动汽车,光伏(PV)和电池 - 衡量乘员的舒适性和弹性 - 从单个设备到社区规模分析的尺度 - 与控制器,HEMS和分配网格模型集成在一起。
一些具有基本频率(F 0)控制的神经声码器已成功地对单个CPU进行实时推断,同时保留了合成语音的质量。但是,与基于信号处理的旧声音编码器相比,它们的推理速度仍然很低。本文提出了一个基于源滤波器模型的神经声码器,具有可训练的时间变化的有限冲动响应(FIR)过滤器,以达到与传统声音编码器相似的推理速度。在拟议的模型中,使用神经网络预测了FIRNET,多个FIR系数,然后通过将混合的激发信号与这些FIR系数进行卷积,从而生成语音波形。实验结果表明,Firenet可以达到类似于传统声音编码器的推理速度,同时保持F 0可控性和自然语音质量。
为了满足现实世界应用的要求,控制几代大语言模型(LLMS)至关重要。先前的研究试图将强化学习(RL)引入可控制的文本生成中,而大多数现有的方法都遭受了过度拟合问题(基于芬太尼的方法)或半崩溃(后处理方法)。但是,当前的RL方法通常由粗粒(句子/段落级)的反馈引导,这可能导致由于语义曲折或句子中的序言而导致次优的表现。为了解决这个问题,我们提供了一种新颖的增强学习算法,名为Tole,该算法为Kenle Vel Rewards制定了可控的文本生成,并采用了“首次量化 - 涉及的”范式来增强RL算法的鲁棒性。此外,TOLE可以灵活地扩展到多个约束,而计算费用很少。实验结果表明,我们的算法可以在单属性和多属性控制任务上实现出色的性能。我们已在https://github.com/windylee0822/ctg上发布了代码。
生成高质量的艺术肖像视频是计算机图形和视觉中的重要且理想的任务。尽管已经提出了一系列成功的肖像图像图像模型模型,但这些面向图像的方法在应用于视频(例如固定框架尺寸,面部对齐,缺失非种族细节和时间不一致的要求)时具有明显的局限性。在这项工作中,我们通过引入一个新颖的Vtoonify框架来研究具有挑战性的可控高分辨率肖像视频风格转移。具体而言,Vtoonify利用了基于编码器提取的多尺度内容功能的高质量艺术肖像来利用型号的中高分辨率层,以更好地保留框架详细信息。结果完全卷积体系结构接受可变大小的视频中的非对准面孔作为输入,从而有助于完整的面部区域,并在输出中自然动作。我们的框架与现有的基于样式的图像图像模型兼容,以将其扩展到视频化,并继承了这些模型的吸引力,以使其具有柔性风格的颜色和强度控制。这项工作分别为基于收藏和基于典范的肖像视频风格转移而建立在Toonify和Dualstylegan的基于Toonify和Dualstylegan的Vtoonify的两个实例化。广泛的实验结果证明了我们提出的VTOONIFY框架对现有甲基的有效性在生成具有灵活风格控件的高质量和临时艺术肖像视频方面的有效性。代码和预估计的模型可在我们的项目页面上找到:www.mmlab-ntu.com/project/vtoonify/。
在本文中,我们研究了小扭曲角度的TBG的光学传导率和热辐射。我们使用包括200多个平面波的连续模型来实现收敛能带。此方法对很小的角度有效。具有不同扭曲角度的TBG的光导率在数值上由久保公式计算出来。基于先前作品的远场辐射理论[21-23],我们探索了TBG的热辐射特性。TBG的辐射光谱通过改变扭曲角度显示可调的高强度和峰位置。 具有魔法角度,可以调节TBG辐射以在0.05EV至0.08EV范围内集中,这超出了大气透明窗口[24]。 这种电磁(EM)波很难在大气中传播,因此红外(IR)摄像机无法检测到它。 用这种材料制成或覆盖的设备是不可见的。 此类材料也可用于制造纺织品以保持温暖,因为热辐射不太可能通过大气传播。 我们的结果建立了魔法双层石墨烯,作为一个高度可调的平台,可调查隐形和保留温暖的材料。TBG的辐射光谱通过改变扭曲角度显示可调的高强度和峰位置。具有魔法角度,可以调节TBG辐射以在0.05EV至0.08EV范围内集中,这超出了大气透明窗口[24]。这种电磁(EM)波很难在大气中传播,因此红外(IR)摄像机无法检测到它。用这种材料制成或覆盖的设备是不可见的。此类材料也可用于制造纺织品以保持温暖,因为热辐射不太可能通过大气传播。我们的结果建立了魔法双层石墨烯,作为一个高度可调的平台,可调查隐形和保留温暖的材料。
瞬态结构在生物系统中发挥着多种重要作用。与构成生物组织骨架的静态结构不同,瞬态结构仅出现在特定的空间和时间尺度上,以在生命周期中履行其职责。尽管人工分子自组装研究领域取得了重大进展,但构建功能性瞬态结构仍然具有挑战性。本文报道了通过不利于组装的主客体相互作用形成瞬态配位自组装结构及其荧光。发光配体和环糊精之间的主客体相互作用极大地改变了配位自组装的动力学,从而形成了瞬态结构。与典型的单体发射在紫外区域的静态平衡结构不同,瞬态自组装形成准分子,从而导致可见光发射。更有趣的是,瞬态结构的生命周期可以通过改变主客体比、配体金属比以及温度来轻松调节。这使得创建模拟植物在不同生命阶段生长的生命模式成为可能。因此,可以预见,瞬态分子自组装的创建将在具有动态功能先进材料的分子自组装领域开辟新范式。
生理过程和疾病发生与化学小分子和表观遗传变化(microRNA或甲基化)等信号密切相关。1例如,microRNA的异常表达与多种严重疾病密切相关,金属离子的浓度变化或有毒金属离子的存在与各种疾病有关。2,3因此,开发检测与发病机理相关基因或临床相关的小分子的传感器对于医学诊断很重要。最近,很大的效果已致力于建立用于检测疾病相关的核酸,金属离子或其他小分子的纳米版本。4 - 9在各种纳米台词中,基于DNA适体的传感器由于其高特征城市和官能化而引起了广泛的关注。4,10尽管取得了这些成就,但传感器的单功能性质和不可控制性限制了其进一步的应用。一方面,对多个分析物的识别对于诊断和治疗非常重要,因为仅通过在某种情况下监测单个目标来进行诊断不足以进行诊断。在另一个
最近,扩散模型已成为强大的生成模型类别。尽管他们成功,但对他们的语义空间的理解仍然有限。这使得在没有其他培训的情况下,获得精确且脱节的图像生成,尤其是以无监督的方式而挑战。在这项工作中,我们从有趣的观察中提高了对它们的语义空间的理解:在一定范围的噪声水平中,(1)扩散模型中学习的后均值预测指标(PMP)是局部线性的,(2)其Jacobian的单数矢量位于其低度语义语义下集中。我们提供了坚实的理论基础,以证明PMP中的线性和低级别的合理性。这些见解使我们能够提出一种无监督的,单步的,无训练的LO W-rank Co n-trollable图像编辑(LOCO编辑)方法,用于在扩散模型中精确局部编辑。LOCO编辑确定了具有良好属性的编辑说明:同质性,可传递性,合成性和线性性。Loco编辑的这些属性从低维语义子空间中受益匪浅。我们的方法可以进一步扩展到各种文本到图像扩散模型(T-Loco Edit)中的无监督或文本监督编辑。最后,广泛的经验实验证明了Loco编辑的有效和效率。可以在项目网站上找到代码和ARXIV版本。1
摘要 - 评估和培训自主驾驶系统需要多样化且可扩展的角案例。但是,大多数现有场景生成方法都缺乏可控性,准确性和多功能性,从而导致产生不令人满意的结果。受图像生成中Draggan的启发,我们提出了DragTraffic,这是基于条件扩散的广义,交互式和可控制的交通场景生成框架。dragtraffic使非专家可以通过自适应混合物专家体系结构为不同类型的交通代理生成各种逼真的驾驶场景。我们采用回归模型来基于条件扩散模型提供一般的初始解决方案和改进程序,以确保多样性。通过交叉注意来引入用户注定的上下文,以确保高可控性。在现实世界中的数据集上进行的实验表明,拖拉法在真实性,多样性和自由方面优于现有方法。演示视频和代码可在https://chantss.github.io/dragtraffic/上找到。