1简介变形金刚及其关键组成部分近年来一直是生成模型的成功和改进的组成部分[Vaswani等。,2023]。他们的全球掌握领域,基于输入上下文动态计算的能力以及较大的能力使它们在许多任务中有用的构建块[Khan等人。,2022]。变压器体系结构的主要缺点是它们具有序列长度的计算复杂性的二次扩展,并符合时间和内存要求。想要在2048×2048分辨率下生成稳定的扩散图像时,最大的U-NET块的注意图在半精度中的记忆成本约为69 GB,为(1 batch×8头×(256 2代币)2×2 bytes)。这超出了大多数消费者GPU的功能[Zhuang等。,2023]。专门的内核,例如用于闪烁的注意力,其速度大大提高并降低了存储成本[Dao等。,2022],由于序列长度的不可行的二次缩放而引起的挑战是持久的。在寻求计算效率的过程中,稀疏注意的概念已获得关注。类似于令牌合并(Tome)的方法[Bolya等。,2023]及其在潜在图像扩散模型中的应用[Bolya and Hoffman,2023]已减少了以高相似性凝结令牌所需的计算时间,从而保留了
受到多模式大语言模型(MLLM)的令人印象深刻的力量的吸引,公众越来越多地利用它们来提高日常工作的效率。尽管如此,当在现实世界中部署这些模型时,MLLM的脆弱性不安全说明带来了巨大的安全风险。在本文中,我们在评估,攻击和防御图像和文本上的评估,攻击和防御方面进行了趋势调查。我们首先介绍了MLLM在图像,文本以及安全性理解的概述,这有助于研究人员了解我们调查的详细范围。然后,我们查看评估数据集和指标,以确保MLLM的安全性。接下来,我们可以介绍与MLLM的安全性相关的攻击和防御技术。最后,我们解决了一些未解决的问题,并讨论了诺言的研究指示。相关论文是在https://github.com/isxinliu/awesome-mllm-safety上收集的。
摘要 人工智能 (AI) 工具的快速发展促进了各种图像生成技术的发展。这些工具对我们看待当代交流的方式产生了重大影响。本研究概述了人工智能对交流的影响所带来的挑战和后果,其研究结果得到了从各种书籍和学术出版物中收集的想法的支持。然而,通过合成图像将人工智能融入交流引发了需要仔细考虑的交流问题。本研究调查了各种道德问题以及道德准则和负责任的实践在创建这些应用程序中的重要性。它错综复杂地将哲学思考、道德审议和社会责任交织在一起,揭示了在机器发展和更广泛的社会领域背景下伦理、技术和人类价值观之间的复杂相互作用。*
Bistable图像,也称为模棱两可的图像或可逆图像,显示了视觉刺激,尽管观察者并非同时,但可以在两个不同的解释中看到。在这项研究中,我们使用可动的图像对视觉模型进行了最广泛的检查。我们手动收集了一个数据集,其中包括29张Bissable图像以及它们的相关标签,并在亮度,色彩,旋转和分辨率方面进行了121种不同的操作。我们评估了六个模型体系结构的分类和属性任务中的十二个不同模型。我们的发现表明,除了来自Idefics家族和llava1.5-13b的模型外,在模型之间,一个相对于另一个相对于另一个相对于另一个相对于图像操作的差异的明显偏爱,对图像旋转的例外很少。另外,我们将模型的偏好与人类进行了比较,并指出这些模型并没有与人类相同的连续性偏见,并且通常与人类初始解释有所不同。我们还调查了提示中的变化和使用同义标签的影响,发现与图像训练数据相比,这些因素明显更多的是模型的解释,而不是图像较高的图像表现出对Bissable图像解释的影响更高。所有代码和数据都是开源的1。
3实施34 3.1模型体系结构。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。34 3.2培训和评估程序。。。。。。。。。。。。。。。。。。。。。。37 3.2.1损失和错误实现。。。。。。。。。。。。。。。。。。。。37 3.2.2数据增强实现。。。。。。。。。。。。。。。。。39 3.2.3训练循环。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。40 3.2.4注意推出实现。。。。。。。。。。。。。。。。。。。41 3.2.5 Grad-CAM实施。。。。。。。。。。。。。。。。。。。。。。。42 3.3实验。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。43 3.3.1定量实验。。。。。。。。。。。。。。。。。。。。。。。。43 3.3.2定性实验。。。。。。。。。。。。。。。。。。。。。。。。。45
摘要。SRGB图像现在是计算机视觉研究中预训练视觉模型的主要选择,这是由于它们的易用性和效果存储。同时,原始图像的优点在于它们在可变的现实世界中的较丰富的物理信息。对于基于相机原始数据的计算机视觉任务,大多数现有研究采用了将图像信号处理器(ISP)与后端网络集成的方法,但经常忽略ISP阶段和后续网络之间的相互作用功能。从NLP和CV区域中正在进行的适配器研究中汲取灵感,我们介绍了Raw-Adapter,这是一种旨在将SRGB预先训练的模型调整为相机原始数据的新颖方法。RAW-ADAPTER包括输入级适配器,这些适配器采用可学习的ISP阶段来进行AD-RAW输入,以及模型级别的适配器,以在ISP阶段和随后的高级网络之间建立连接。此外,Raw-Adapter是一个可以在各种Compoter Vision Frameworks中使用的通用框架。在不同的照明条件下进行了丰富的实验,已经显示了我们算法的最先进(SOTA)绩效,证明了其在一系列现实世界和合成数据集中的有效性和效率。代码可在此URL上找到。
2,λ ∈ [ − π,π ] 。然而,这两种表示360°图像中扫描路径的方法都存在不连续性的问题,比如纬度相同但经度不同的两个点λ = − 180 ◦和λ = 180 ◦,其实代表的是同一个位置,但在以上两个坐标系中,它们代表的是两个不同的位置,而且相距甚远。为了解决上述问题,我们在三维笛卡尔坐标系中表示注视点,其中每个位置都以p =(x,y,z)的形式给出。采用该三维坐标系,可以有效解决二维等距矩形投影中使用的坐标系的不连续性问题。此外,三个坐标系中的表示可以使用以下公式灵活地转换。
生成AI图像的出现完全破坏了艺术界。将AI产生的图像与人类艺术区分开是一个具有挑战性的问题,其影响会随着时间的流逝而增长。未能解决这个问题,使坏演员能够欺骗为人类艺术支付保费的人和所陈述的政策禁止AI图像的公司。对于内容所有者而言,建立版权也至关重要,对于有兴趣策划培训数据的模型培训师,以避免潜在的模型崩溃。有几种不同的方法将人类艺术与AI图像区分开,包括经过监督学习培训的分类器,针对扩散模型的研究工具以及使用其艺术技术知识的专业艺术家识别的研究工具。在本文中,我们试图了解这些方法在良性和对抗性环境中都可以对付当今现代生成模型。我们在7种样式中策划真实的人类艺术,从5种生成模型中产生匹配的图像,并应用8个探测器(5个自动检测器和3个不同的人类群体,包括180名人群工作者,3800多名专业艺术家以及13位在探测AI的专家艺术家)。Hive和专家艺术家都做得很好,但是以不同的方式犯错(在对抗性扰动上较弱,而专家艺术家产生更高的误报)。我们认为这些弱点将持续存在,并认为人类和自动化的构件的结合提供了准确性和鲁棒性的最佳组合。
摘要 - 这项研究提供了深度学习模型的比较分析 - UNET,RES-UNET,RES-RES-UNET和NNUNET,可评估其在脑瘤,息肉和多级心脏分段任务中的表现。分析侧重于精确,准确性,召回,骰子相似性系数(DSC)和联合(IOU)的相交以评估其临床适用性。在脑肿瘤分割,RES-UNET和NNUNET中明显胜过UNET,在DSC和IOU分数中,RES-UNET领先,表明肿瘤描述的准确性均出色。同时,NNUNET在召回和准确性方面表现出色,这对于临床诊断和计划中可靠的肿瘤检测至关重要。在息肉检测中,NNUNET是最有效的,在所有类别中达到了最高的指标,并将其作为内窥镜检查中可靠的诊断工具证明了它。在复杂的心脏细分任务中,RES-UNET和RES-UNET在描述左心室方面非常出色,RES-UNET也导致右心室分割。nnunet在心肌分段中无与伦比,在精确,召回,DSC和IOU中取得了最高分数。结论指出,尽管有时会在特定指标中表现出色,但差异很小。NNUNET始终在整个实验中显示出卓越的整体性能。索引术语 - 深度学习,UNET,RES-UNET,RES-UNET,NNUNET,医学成像细分,临床应用特别是因为其高召回和准确性而引起的,这在临床环境中至关重要,可以最大程度地减少误诊并确保及时治疗,NNUNET在所有测试类别中的关键指标中的稳健表现将其确立为这些变化和复杂的分割任务的最有效模型。
与互联网连接的相机支持许多有用的家庭监控和健康应用。但是,这些相同的摄像机indiscrim-捕获敏感和个人身份信息(PII),限制了它们在某些情况(例如房屋)中的接受。先前的工作删除了感兴趣的区域(ROI)以确保图像并改善隐私。但是,仅依靠RGB信息查找人员的方法容易受到环境和照明条件的影响,从而导致它们失败和泄漏PII。从我们的部署研究中,使用仅RGB的方法时,将近一半的包含人的图像泄漏。此外,经常进行ROI删除,要求服务器对这些操作进行可信赖。这项工作介绍了隐私系统,在添加热传感的情况下,我们的系统具有明显增强的RGB图像和视频中的人的能力,并在存储或传输任何数据之前在设备上有效地将其删除,同时又留在典型的IoT Power限制下。从我们上述的部署研究中,在办公室建造中庭,家庭住宅和室外公园环境中,私人原型有效地以99的消毒率有效地消除了PII。1%。此外,Privacylens可以使用其嵌入式GPU生成用于下游CV/ML任务的设备功能,如三个说明性应用中所示,进一步降低了PII的集合和存储。
