随着图像生成器的质量不断提高,深层蛋糕成为社会辩论的一个话题。图像水印允许负责任的模型自动检测和标记其AI生成的内容,从而减轻危害。然而,图像水印中的当前最新方法仍然容易受到伪造和去除攻击的影响。这种脆弱性发生在部分原因是水印会扭曲产生的图像的分布,无意中揭示了有关水印技术的信息。在这项工作中,我们首先根据扩散模型的初始噪声展示了一种无误的水印方法。但是,检测水印需要将图像重建的初始噪声与所有先前使用的初始噪声进行比较。为了减轻这些问题,我们提出了一个两阶段的水印框架,以进行有效检测。在生成期间,我们通过生成的傅立叶模式增加了初始噪声,以嵌入有关我们使用的初始噪声组的信息。为了检测,我们(i)检索相关的噪声组,以及(ii)在给定组中搜索可能与我们的图像相匹配的初始噪声。这种水印方法实现了对大量攻击的伪造的最新鲁棒性和去除。
工作记忆 (WM) 表示暂时存储在大脑中的信息,是人类认知领域的基础研究课题。脑电图 (EEG) 可以监测大脑的电活动,已广泛应用于测量 WM 水平。然而,一个关键挑战是个体差异可能会导致无效的结果,特别是当建立的模型遇到不熟悉的受试者时。在本文中,我们提出了一种具有空间注意的跨受试者深度适应模型 (CS-DASA),以推广跨受试者的工作量分类。首先,我们将 EEG 时间序列转换为包含空间、光谱和时间信息的多帧 EEG 图像。首先,CS-DASA 中的受试者共享模块从源受试者和目标受试者接收多帧 EEG 图像数据并学习共同的特征表示。然后,在特定主题模块中,实施最大平均差异来测量再生核希尔伯特空间中的域分布差异,这可以为域自适应添加有效的惩罚损失。此外,采用主题到主题的空间注意机制来关注目标图像数据中的判别性空间特征。在包含 13 个主题的公共 WM EEG 数据集上进行的实验表明,所提出的模型能够实现比现有最先进方法更好的性能。
我们提出了有条件扩散模型的新应用,用于根据其物理特性创建星系的合成图像。虽然先前的工作重点是调整单个参数,但我们证明了扩散模型可以在多个物理属性上产生模型,从而使我们能够探索这些属性的组合如何与星系外观相关。我们的模型接受了Sloan Digital Sky Survey(SDSS)的数据培训,生成了以红移,恒星质量,恒星形成率和气相金属性为条件的星系图像。值得注意的是,该模型捕获了预期的人类物理趋势,例如金属性与星系颜色或形态之间的关系。然而,生成的图像不同意通过GINI系数,M 20系数和浓度 - 空气平滑度统计的SDSS验证图像,这与系统预测的弥漫性不足相一致。虽然现代生成模型能够生成逼真的图像,但将这些模型应用于天体物理学可能仍然具有挑战性。
摘要 - 在过去的四十年中,城市的看法已成为与犯罪学,心理学和城市规划等多个领域相交的重要研究领域。这种跨学科的方法试图理解和解释人们如何看待城市环境以及这些看法如何影响其行为。由现代Web技术和服务驱动的数据收集方法的激增使研究人员能够应用来自各个领域的技术来更好地量化和分析城市知觉。在这项研究中,我们介绍了基于视觉变压器的模型UrbanFormer,以解决城市感知分析的任务,利用广泛使用的位置脉冲2.0数据集。我们的重点是安全类别,这是城市感知中的关键问题,同时采用视觉变压器和解释性方法来提供有关感知分析背后决策过程的见解。索引术语 - 城市的感知,城市计算,计算机视觉,深度学习,街道视图图像,人类感知,建立环境
糖尿病视网膜病变 (DR) 是一种普遍存在且可能导致失明的眼部病变。由于该病通常无症状进展,因此定期筛查至关重要。视网膜成像技术的进步,例如标准 45° 视网膜摄影和超广角 (UWF) 成像,已显著改善了 DR 的检测和管理。人工智能 (AI) 在眼科领域的整合,特别是通过深度学习系统进行 DR 检测,已显示出令人欣喜的结果。无代码 AI 平台(如 Google AutoML(Google,加利福尼亚州,美国))旨在让没有编程专业知识的用户也能使用,从而使临床医生更容易开发和实施 AI 驱动的诊断工具。本研究探索了将 Google AutoML 应用于菲律宾当地三级医院图像数据集中的 UWF 视网膜图像,以创建和评估用于检测可转诊糖尿病视网膜病变 (refDR) 的机器学习模型。
在广泛的数据集上预先训练的视觉语言模型(VLMS)可以通过将性别信息与特定对象或场景相关联,无意中地学习偏见。当前方法,该方法着重于修改输入并监视模型的输出概率分数的变化,通常从模型组件的角度来全面地偏见。我们提出了一个框架,该框架结合了因果中介分析,以确保并绘制VLM中偏见产生和传播的途径。我们的框架适用于广泛的视觉语言和多模式任务。在这项工作中,我们将其应用于对象检测任务并将其应用于GLIP模型。这种方法使我们能够确定干预措施对模型偏差的直接影响以及干预措施对通过不同模型组件介导的偏差的间接影响。我们的结果表明,图像效果是偏见的主要因素,其影响明显高于文本特征,特别是占MSCOCO和PASCAL-SONTIC数据集中偏见的32.57%和12.63%。值得注意的是,图像编码器的贡献超过了文本编码器和深层融合编码器的贡献。进一步的实验证实,语言和视力方式的贡献是对齐和不集中的。因此,在图像编码器中着重于模糊的性别表示,这对模型偏见做出了最大的贡献,在MSCOCO和PASCAL-SENTENCE数据集中,有效地降低了偏见22.03%和9.04%,并且具有最小的性能损失或增加的计算需求。1
摘要 — 近年来,病理诊断通过将深度学习模型与使用全切片图像 (WSI) 的多实例学习 (MIL) 框架相结合而取得了优异的表现。然而,WSI 的千兆像素特性对高效的 MIL 提出了巨大挑战。现有研究要么不考虑实例之间的全局依赖关系,要么使用线性注意等近似值来建模对对实例交互,这不可避免地带来了性能瓶颈。为了应对这一挑战,我们提出了一个名为 MamMIL 的框架用于 WSI 分析,通过将选择性结构化状态空间模型(即 Mamba)与 MIL 相结合,能够在保持线性复杂度的同时对全局实例依赖关系进行建模。具体而言,考虑到 WSI 中组织区域的不规则性,我们将每个 WSI 表示为一个无向图。为了解决 Mamba 只能处理一维序列的问题,我们进一步提出了一种拓扑感知扫描机制来序列化 WSI 图,同时保留实例之间的拓扑关系。最后,为了进一步感知实例之间的拓扑结构并结合短程特征交互,我们提出了一种基于图神经网络的实例聚合块。实验表明,MamMIL 可以实现比最先进的框架更先进的性能。代码可以在 https://github.com/Vison307/MamMIL 访问。索引术语 — 多实例学习、状态空间模型、整个幻灯片图像
摘要本文包含图像采集的过程,包括分析材料的抽样以及用于研究中使用的硬件和预处理的技术解决方案。通过自动化机械系统的帮助,获得了包含已识别对象的数字图像的数据集,以控制显微镜表并用于训练Yolo模型。根据自动图像分析比较了Yolov4和Yolov8深度学习网络的性能。Yolo构成一个单阶段的对象检测模型,目的仅检查一次分析的图像。通过利用单个神经网络,将图像分为单元格的网格,并为边界框以及每个框的对象类概率做出了预测。这种方法允许以最小的精度损失实时检测。这项研究涉及纤毛的原生动物Vorticella作为测试对象。这些生物都在天然水体和采用活性污泥法的治疗厂中发现。由于其独特的外观,高丰度和久坐的生活方式,Vorticella是检测任务的好主题。为了确保训练数据集准确,图像是手动标记的。使用诸如准确性,精度和召回的指标评估模型的性能。最终结果表明,在Yolo算法的后续版本中,软件中所获得的输出和进度的指标差异。
心电图(ECG)是用于识别心血管问题的关键诊断工具,评估心脏的电和肌肉功能。虽然测试本身易于执行,但解释ECG读数需要大量的专业知识。传统上,ECG记录以纸质形式保持,使手动审查劳动密集型。通过数字化这些记录,可以改善自动诊断和分析。this project aims to use machine learning techniques to transform ECG paper records into a onedimensional signal, focusing on the P, QRS, and T waves that reflect heart activity.该过程涉及将ECG报告分割为13个线索,将数据转换为信号,应用平滑并通过阈值生成二进制图像。降低尺寸降低,例如主成分分析,将增强数据理解。机器学习模型,包括KNN,Logistic回归,SVM和集成分类器,将实现。最终模型将诊断诸如心肌梗塞或心律不齐之类的疾病,有助于有效的心脏健康评估。
摘要 - 自主机器人操纵是一个复杂且不断发展的机器人领域。本文着重于模仿学习中的数据增强方法。模仿学习包括三个阶段:从专家那里收集数据,学习模型和执行。但是,收集专家数据需要手动努力,并且耗时。此外,由于传感器具有不同的数据采集间隔,因此需要进行预处理,例如降采样以匹配最低频率。下采样可实现数据的增加,还有助于机器人操作的稳定。鉴于此背景,本文提出了使用称为“ dabi”的图像的基于双边控制的模仿学习的数据增强方法。Dabi以1000 Hz收集机器人关节角,速度和扭矩,并使用以100 Hz捕获的Gripper和环境相机的图像作为数据增强的基础。这可以使数据增加十倍。在本文中,我们仅收集了5个专家演示数据集。,我们使用非构成数据集和两种增强方法训练了双边对照模型,用于比较实验并进行了现实世界实验。结果证实了成功率的显着提高,从而证明了达比的有效性。有关其他材料,请检查:https://mertcookimg.github.io/dabi