抽象的超分辨率(SR)是一个不当的反问题,其中具有给定低分辨率图像的可行解决方案集的大小非常大。已经提出了许多算法,以在可行的解决方案中找到一种“好”解决方案,这些解决方案在忠诚度和感知质量之间取得了平衡。不幸的是,所有已知方法都会生成伪影和幻觉,同时试图重建高频(HF)图像细节。一个有趣的问题是:模型可以学会将真实图像细节与文物区分开吗?尽管有些重点侧重于细节和影响的分化,但这是一个非常具有挑战性的问题,并且尚待找到满意的解决方案。本文表明,与RGB域或傅立叶空间损耗相比,使用小波域损失功能训练基于GAN的SR模型可以更好地学习真正的HF细节与伪像的表征。尽管以前在文献中已经使用了小波域损失,但在SR任务的背景下没有使用它们。更具体地说,我们仅在HF小波子带上而不是在RGB图像上训练鉴别器,并且发电机受到小波子带的忠诚度损失的训练,以使其对结构的规模和方向敏感。广泛的实验结果表明,我们的模型根据多种措施和视觉评估实现了更好的感知延续权权衡。
摘要 — 在机器对机器 (M2M) 传输环境中,非常需要使用有损压缩来减少传输的信息量。然而,常用的图像压缩方法是为人类感知而设计的,而不是为人工智能 (AI) 算法的性能而设计的。众所周知,这些压缩失真会影响许多基于深度学习的架构在多个计算机视觉任务上的表现。在本文中,我们专注于分类任务,并提出了一种名为专家训练的新方法,以增强卷积神经网络 (CNN) 对压缩失真的弹性。我们在 ImageNet 数据集上使用 MnasNet 和 ResNet50 架构验证了我们的方法,以抵抗三种常用方法 (JPEG、J2K 和 BPG) 引入的图像压缩失真。结果表明,使用所提出的专家训练方法,这两种架构对测试的编码伪影具有更好的鲁棒性。我们的代码可在 https://github.com/albmarie/expert training 上公开获取。索引术语 — 人工智能 (AI)、图像编码、机器对机器 (M2M)
摘要 数字人文 (DH) 是传统人文与计算技术融合的跨学科领域。它研究通过数字化、文本分析、3D 扫描和数据可视化来分析、保存和理解文化文物的新方法。本文探讨了 DH 的范围、所使用的技术工具及其在文化文物研究中的应用。此外,它还解决了数字化和解释文化遗产所固有的道德问题。通过案例研究,本研究强调了 DH 如何通过实现创新方法并为历史和文化叙事提供新见解来改变学术实践,同时强调道德实践和公平代表性的重要性。关键词:数字人文、文化文物、数字化、3D 扫描、文本分析、数据可视化。
单个细胞的线粒体DNA(mtDNA)的测序已在本地人类样品和临床标本中解析了克隆性和谱系。先前的工作表明,杂质mtDNA变体可用于描述造血的克隆性,但它们重建细胞系统发育的能力有限。但是,Weng等人的最新报告。 通过描述据报道解决高分辨率系统发育树的细胞之间的空前数量的共享mtDNA变体来挑战当前范式。 我们重新审查了Weng等人的主张,并确定了有关这种前所未有的联系的两个主要关注点。 首先,在每个细胞的单个分子中检测到细胞之间的共享变体,其次,这些变体在mtDNA分子的边缘富集了10-20倍,使人联想到其他测序方法中报道的文物。 此外,我们的分析表明,修剪低支撑和可能的人造mtDNA变体几乎消除了所有报道的系统发育结构。 因此,我们强烈警告不要使用依赖最小证据的mtDNA变体工作流,包括Weng等人在Weng等人中引入的计算管道,因为具有高连接性和较低证据的变体可能是导致假系统发电的构建的伪像。但是,Weng等人的最新报告。通过描述据报道解决高分辨率系统发育树的细胞之间的空前数量的共享mtDNA变体来挑战当前范式。我们重新审查了Weng等人的主张,并确定了有关这种前所未有的联系的两个主要关注点。首先,在每个细胞的单个分子中检测到细胞之间的共享变体,其次,这些变体在mtDNA分子的边缘富集了10-20倍,使人联想到其他测序方法中报道的文物。此外,我们的分析表明,修剪低支撑和可能的人造mtDNA变体几乎消除了所有报道的系统发育结构。因此,我们强烈警告不要使用依赖最小证据的mtDNA变体工作流,包括Weng等人在Weng等人中引入的计算管道,因为具有高连接性和较低证据的变体可能是导致假系统发电的构建的伪像。
我们使用过滤器 -1 和 -2 对原始 ReDeeM 数据进行了重新分析,结果表明这两个过滤器得出的结果大相径庭。两个过滤器之间的连接指标和由此产生的系统发育树存在很大差异,这一事实进一步证实了我们最初的担忧,即人工 mtDNA 变体(现在已被过滤器 -2 移除)仍然是所谓系统发育信号的重要驱动因素。反复提出的 k-NN 分析在设计上存在缺陷,不能被视为对 ReDeeM 方法的验证,也不能为人工变体的有效性提供支持。没有考虑影响单分子支持变体对克隆和系统发育推断的稳健性的其他混杂因素。作者认为,通过强调观察预期的 mtDNA 突变特征谱,仅由一个分子支持的变体仍然对系统发育推断具有参考价值。然而,我们对污染率的估计表明,环境 mtDNA 是 ReDeeM 方法的一个显著混杂因素。值得注意的是,污染率明显高于之前报道的 mtscATAC-seq 4,这需要进一步研究,但仅支持这样一种观点,即低分子拷贝数支持的 mtDNA 变体不应被视为系统发育推断。
在 ChatGPT 等创新的推动下,生成式人工智能已获得广泛认可。在考古学领域,生成式人工智能具有巨大潜力,特别是通过引入源自受损或退化物体的 2D 或 3D 渲染来重建文化文物的外观。在本研究中,我们展示并评估了生成对抗网络 (GAN) 的实际应用,利用深度学习的力量,对古罗马硬币进行 2D 图像重建,旨在帮助改善其可视化效果。罗马硬币被选为我们的焦点,因为它们相对丰富,并且可以通过在线存储库和数据集获得。我们的结果表明,增强受损或退化硬币的能力有所提高,使它们更类似于保存更完好的硬币。在某些情况下,生成的硬币与原件几乎没有区别。这项工作的贡献展示了 GAN 在协助文化遗产专家和考古学家重现受损物体外观方面的潜力,从而有助于改善保存不佳的硬币的可视化效果。但是,我们还讨论了在重建中使用 GAN 的局限性。虽然这项工作是针对古钱币量身定制的,但只要有足够的训练数据,GAN 在其他文物中的应用前景广阔。我们讨论了如何应用 GAN 并改善文物重建的外观,我们还提供了本研究中使用的相关数据。
深度学习的语音增强已取得了显着的进步。然而,诸如语音扭曲和伪像之类的挑战仍然存在。这些问题可以降低听觉质量和语音识别系统的准确性,这在采用轻量级模型时尤其。因此,本文研究了管理语音失真和伪像的基本原则,并引入了一种新颖的组合损失函数,该函数整合了语音活动检测(VAD)信息和语音连续性以解决问题。此外,基于提出的损失功能设计了一种新的培训策略,以解决训练极小模型上这种综合损失的困难。实验 - 我们的方法对DNS2020数据集的有效性和实际会议数据在增强主观和objective语音指标以及自动语音识别(ASR)性能方面的有效性。索引术语:言语增强,损失功能,语音差异,光谱中断,伪影
基于生成的对抗网络(GAN)的声音编码器在高质量和快速的推理速度方面已在语音合成中获得了极大的关注。但是,仍然存在许多明显的光谱伪像,导致综合语音的质量下降。在这项工作中,我们采用了一种基于Gan的新型Vocoder,专为少数文物和高保真效果而设计,称为Fagan。为了抑制高频组件中非理想的上取样层引起的混叠伪像,我们在发电机中引入了抗脱氧的双反卷积模块。为了减轻模糊的伪影并丰富了规格细节的重建,我们提出了一种新型的细粒度多分辨率真实和虚构的损失,以帮助对相信息进行建模。实验结果表明,FA-GAN的表现优于比较促进音频质量和减轻光谱伪像的方法,并且在应用于看不见的说话者场景时表现出卓越的性能。索引术语:语音综合,生成对抗网络,光谱伪像,频域
摘要。3 D传感是自动驾驶汽车的基本任务。其部署通常依赖于对齐的RGB摄像机和激光镜头。谨慎的同步和校准,在LiDAR投影的深度图中,系统的错位持续存在。这是由于两个传感器之间的物理基线距离所致。工件通常反映为背景激光雷达错误地投射到前景上,例如汽车和行人。KITTI数据集使用立体声摄像机作为启发式解决方案来删除工件。但是,大多数AV数据集(包括Nuscenes,Waymo和DDAD)都缺少立体声图像,使Kitti解决方案不适用。我们提出了Replay,这是一种无参数的分析解决方案,用于删除投影伪像。我们在假设的虚拟LiDAR相机和RGB摄像机之间构建了一个Binocular视觉系统。然后,我们通过使用拟议的分析溶液确定面孔闭塞来删除投影伪影。我们显示出具有无伪像的深度图的最先进(SOTA)单眼估计器和3 d对象探测器的一致改进。
创造力一直从技术创新中受益[14],包括机器学习的最新进展 - 例如,用于文本,图像,音频和视频的强大生成模型。但是,除了具有备受瞩目的应用程序外,重要的杂志工作仍然存在很大的差距,因为那些具有文化,艺术家和行为考虑因素或重点的人尚未从这些机器学习方面的进步中得到充分提高。这提出了挑战,尤其是在提出设计师对系统行为或文化考虑的酌处权时。在我的研究中,我旨在将计算方法与艺术家,文化,人文学科和设计师的考虑相结合,以在机器学习可以帮助促进表演的同时满足这些方式。为此,我提出了技术和工具,这些技术和工具都可以满足创意设置的需求以及核心机器学习的进步。它们包括1)通过设计师的自由裁量权生成抗tifacts,2)机器学习增强了用于历史和文化数据的工具,以及3)有关进化策略,最佳运输,语言和图形学习的前进机器学习技术和工具。