理解人类行为是AI和机器人界的长期挑战,涉及对复杂,依赖上下文的行动和意图的理解。在社会互动的背景下,个人的运动反映了他们的行为和意图。作为人类,我们预测了短期未来的未来运动和状态,以优化流利的相互作用。但是,将这种行为转移到机器人仍然是一个挑战。本项目设想适当的HRI生成强大的机器人行为。尤其是,学生将通过利用在人类运动产生中观察到的高端质量(DDPM)中观察到的高端质量来扩展我们以前的工作[1]中的确定性机器人行为[1] [2]。仍然,为了克服由于经常性降解步骤而导致的DDPM的缓慢推理速度,学生将探索使用一致性模型(CM)进行实时推理[3]。最终目标是生成HRI行为,通过关注机器人行为,多样性和鲁棒性对现实世界的闭合的忠诚度,与人类相互作用非常相似。鉴于最终目标是在实际情况下对其进行测试,因此学生将在培训期间采用合成的遮挡策略,以使模型对现实世界中可能发生的错误姿势估计进行健全。
弗伦纳(Sillja); imke酸;埃琳娜·朗戈(Elena Longo):《同步辐射杂志》 2022年1月发行的封面是论文的亮点:S。Flenner,S。Bruns,E。Longo,A.J。Parnell,K.E。 Stockhausen,M。Müller,I。Greving:“机器学习高分辨率X射线纳米摄影数据的降级” J.Synchrotron辐射29(2022)230-238 doi:10.1107/s160057752111111139(20222)(2022)(2022)Parnell,K.E。Stockhausen,M。Müller,I。Greving:“机器学习高分辨率X射线纳米摄影数据的降级” J.Synchrotron辐射29(2022)230-238 doi:10.1107/s160057752111111139(20222)(2022)(2022)
图像生成模型的前几代,包括变异自动编码器[23]和生成广泛的网络[21],利用砂质层的潜在空间来确定编辑方向[15,21,42]。扩散模型[17,43]基于马尔可夫链的变形过程,并且本质上缺乏单个潜在空间。此外,噪声预测主链要么是差异变压器(DIT)[31]或U-NET [38],因此两种构造都缺乏明确选择潜在空间。在U-NET主干的背景下 - 本文的重点 - 训练 - 自由编辑的方法,以编辑重点在交换不同的模块上,包括自我和交叉注意模块和H空间,U-NET的Bot-tleneck。然而,u-net中的一个必需元素,有助于长期依赖的传输和梯度传播,是跳过的连接。与现有工作相反,我们专注于前者及其在基于U-NET的扩散模型中的作用。在本文的其余部分中,我们解决以下问题:(i)在U-NET的跳过连接中表示信息以及何处?(ii)它如何影响图像产生?(iii)在DeNoising过程中何时出现此信息?1
无分类器指导(CFG)已广泛用于文本到图像扩散模型中,其中引入了CFG量表以控制整个图像空间的文本指导强度。但是,我们认为全球CFG量表会导致空间不一致,这是不同的脱节优势和次优的图像质量。为了解决这个问题,我们提出了一种新颖的方法,即语义意识的无分类器指导(S-CFG),以自定义文本到图像扩散模型中不同语义单元的指导学位。具体来说,我们首先设计了一种训练 - 免费的语义分割方法,将潜在图像分配到每个Denoising步骤中相对独立的语义区域。尤其是,将U-NET主链中的跨意义图被重新归一化,以将每个贴片分配给相应的令牌,而自我注意力图则用于完成语义区域。然后,为了平衡各种语义单元的扩增,我们会自适应地调整各个不同区域的CFG尺度,以将文本指导学度重新确定为统一水平。最后,广泛的实验证明了S-CFG优于原始CFG策略在各种文本到图像扩散模型上的优越性,而无需任何额外的培训成本。我们的代码可在https://github.com/smilesdzgk/s-cfg上找到。
摘要:脑电图 (EEG) 信号很容易受到肌肉伪影的污染,这可能导致脑机接口 (BCI) 系统以及各种医疗诊断的错误解读。本文的主要目标是在不扭曲 EEG 所含信息的情况下去除肌肉伪影。首次提出了一种新的多阶段 EEG 去噪方法,其中小波包分解 (WPD) 与改进的非局部均值 (NLM) 算法相结合。首先,通过预训练的分类器识别伪影 EEG 信号。接下来,将识别出的 EEG 信号分解为小波系数,并通过改进的 NLM 滤波器进行校正。最后,通过逆 WPD 从校正后的小波系数重建无伪影的 EEG。为了优化滤波器参数,本文首次使用了两种元启发式算法。所提出的系统首先在模拟脑电图数据上进行验证,然后在真实脑电图数据上进行测试。所提出的方法在真实脑电图数据上实现了 2.9684 ± 0.7045 的平均互信息 (MI)。结果表明,所提出的系统优于最近开发的具有更高平均 MI 的去噪技术,这表明所提出的方法在重建质量方面更佳并且是全自动的。
水平生成是程序内容产生(PCG)的主要重点,但是基于深度学习的方法受到稀缺培训数据的限制,即人为设计的水平。尽管是一个主导的框架,但生成的对抗网络(GAN)在产生的和人为实现的水平之间表现出很大的质量差距,以及培训成本上升,尤其是随着令牌复杂性的提高。在本文中,我们引入了一个基于扩散的生成模型,该模型仅从一个示例中学习。我们的方法涉及两个核心组成部分:1)有效而表达的水平代码,以及2)具有受限接收场的潜在denoing网络。首先,我们的方法利用令牌标签(类似于单词嵌入)来提供密集的表示。这种策略不仅超过了代表较大游戏水平的一式式编码,而且还可以提高稳定性并加速潜在扩散的收敛性。此外,我们将denoising网络体系结构调整为良好的接收领域,以局部数据的局部贴片,以促进单个例子学习。广泛的实验表明,与手动设计的水平相比,我们的模型能够生成风格一致的任意大小样本。它适合与基于GAN的方法更少的伪像的广泛水平结构。源代码可在https://github.com/shiqi-dai/ diffusioncraft上找到。
图 2) ENG 分类信号处理的示意图;a) 记录的 ENG 数据集分为训练集和测试集;b) 预处理块应用信号分割和去噪;c) 从运行观察窗口提取和选择特征;d) 数据驱动的分类模型训练;e) 使用从训练中校准的模型对从测试集中提取的特征进行验证以进行类别预测;f) 根据分类器结果驱动设备的决策规则。
摘要。现有的3D语义占用预测方法典型地将任务视为一个单发的3D体素分割问题,在输入和占用图之间的单步映射上进行了限制,这限制了它们完善和完成本地区域的能力。在本文中,我们引入了Occgen,这是3D语义占用预测的简单而强大的生成感知模型。Occgen采用了“噪声到占用”生成范式,通过预测和消除随机高斯分布来逐渐推断和完善占用图。OCCGEN由两个主要组成部分组成:一个能够处理多模式输入的条件编码器,以及一种采用多模式特征作为条件的逐步改进解码器。对这种生成管道的关键见解是,扩散的deoising过程自然能够对密集的3D杯映射的粗到细化进行建模,从而产生更详细的预测。对几个占用基准的广泛实验证明了与最新方法相比,该方法的有效实验。例如,OCCGEN在Muli-Modal,仅LIDAR-仅和仅相机设置下的Nuscenes-cupancy数据集中相对将MIOU提高9.5%,6.3%和13.3%。此外,作为一种生成感知模型,Occgen表现出鉴别模型无法实现的理想特性,例如在其多步预测并提供不确定性估计的情况下。
图像和视频着色是图像恢复中最常见的概率之一。这是一个不足的问题,已经提出了多种方法,从更传统的计算机视觉策略到具有基于变压器或生成的神经网络模型的最新开发。在这项工作中,我们展示了如何对文本到图像综合进行预培训的潜在扩散模型,以进行图像着色,并为各种场景提供了灵感的解决方案:高质量的直接着色,并具有多样化的效果,并通过用户指导的颜色,通过色彩勾勒,文本图像或参考图像或网状色彩和纯净的颜色和纽约。一些已经使用分解模型进行了调查的一些作品,但是所提出的SO措施通常更为复杂,需要训练指导DeNoising Process(àlaControlNET)的侧模型。这种方法不仅增加了参数的数量和计算时间,而且还会在我们显示的时导致次级最佳着色。我们的评估