尽管用于语义图像编辑的深度神经模型最近取得了进展,但目前的方法仍然依赖于明确的人工输入。先前的工作假设有手动整理的数据集可用于监督学习,而对于无监督方法,需要人工检查发现的组件以识别那些修改有价值语义特征的组件。在这里,我们提出了一种新颖的替代方法:利用大脑反应作为学习语义特征表示的监督信号。在一项神经生理学实验中,向参与者 (N=30) 展示人工生成的面孔并指示他们寻找特定的语义特征,例如“老”或“微笑”,同时通过脑电图 (EEG) 记录他们的大脑反应。使用从这些反应推断出的监督信号,学习生成对抗网络 (GAN) 潜在空间内的语义特征,然后将其用于编辑新图像的语义特征。我们表明,隐性大脑监督实现的语义图像编辑性能与显性手动标记相当。这项工作证明了利用通过脑机接口记录的隐性人类反应进行语义图像编辑和解释的可行性。
基于病例的解释是一种直观的方法,可以深入了解临床环境中深度学习模型的决策过程。但是,由于隐私问题,医疗图像不能作为解释共享。为了解决这个问题,我们提出了一种新颖的方法,用于删除图像的身份和医学特征,并将其应用于匿名医学图像。分离机制取代了图像中的某些特征向量,同时确保保留其余特征,从而获得编码图像的身份和医疗特征的独立特征向量。我们还提出了一个模型来制造合成隐私的身份,以替代原始图像的身份并实现匿名化。这些模型应用于医疗和生物识别数据集,证明了它们生成可保留其原始医疗内容的现实匿名图像的能力。此外,实验显示了网络通过更换医疗功能来生成反事实图像的固有能力。
– 奥地利航天局 (ASA)/奥地利。 – 比利时联邦科学政策办公室 (BFSPO)/比利时。 – 中央机械制造研究院 (TsNIIMash)/俄罗斯联邦。 – 中国卫星发射和跟踪控制总院、北京跟踪和通信技术研究所 (CLTC/BITTT)/中国。 – 中国科学院 (CAS)/中国。 – 中国空间技术研究院 (CAST)/中国。 – 英联邦科学与工业研究组织 (CSIRO)/澳大利亚。 – 丹麦国家空间中心 (DNSC)/丹麦。 – 航空航天科学和技术部 (DCTA)/巴西。 – 电子和电信研究所 (ETRI)/韩国。 – 欧洲气象卫星应用组织 (EUMETSAT)/欧洲。 – 欧洲通信卫星组织 (EUTELSAT)/欧洲。 – 地理信息和空间技术发展局 (GISTDA)/泰国。 – 希腊国家空间委员会 (HNSC)/希腊。 – 印度空间研究组织 (ISRO)/印度。 – 空间研究所 (IKI)/俄罗斯联邦。 – 韩国航空宇宙研究院 (KARI)/韩国。 – 通信部 (MOC)/以色列。 – 穆罕默德·本·拉希德航天中心 (MBRSC)/阿拉伯联合酋长国。 – 国家信息和通信技术研究所 (NICT)/日本。 – 国家海洋和大气管理局 (NOAA)/美国。 – 哈萨克斯坦共和国国家空间局 (NSARK)/哈萨克斯坦。 – 国家空间组织 (NSPO)/中国台北。 – 海军空间技术中心 (NCST)/美国。 – 粒子与核物理研究所 (KFKI)/匈牙利。 – 土耳其科学技术研究委员会 (TUBITAK)/土耳其。 – 南非国家航天局 (SANSA)/南非共和国。 – 空间和高层大气研究委员会 (SUPARCO)/巴基斯坦。 – 瑞典空间公司 (SSC)/瑞典。 – 瑞士空间办公室 (SSO)/瑞士。 – 美国地质调查局 (USGS)/美国。
项目描述。大型语言模型(LLMS)的令人印象深刻的成功引发了管理多种方式以外的多种方式的需求。结果,已经出现了大型多模型(LMM),例如GPT-4V,GEMINI,DEEPSEEK-VL和QWEN2-VL。这些模型可以理解涉及视觉和语言的说明并采取行动,即,它们使用户能够上传图像并与LLM讨论。原则上,多模式变压器(例如剪辑和碎片)旨在处理文本和图像输入。这些模型在关节空间中处理视觉和文本数据。这使他们可以理解文本并将其连接到视觉表示。一般框架如下:i)图像特征首先是通过视觉变压器(例如VIT)提取的,该vit将视觉数据转换为嵌入,ii)文本输入由语言模型处理,该模型将文本模型转换为自己的嵌入,然后iiii iii)通过共享的变压器结构或通过交叉说明机构将两个嵌入式处理在一起。但是,有一些架构细节将这些模型彼此区分。
最近,由于它能够从大量未标记的数据中学习,因此蒙版的图像建模(MIM)引起了很大的关注,并且已被证明对涉及自然IM的各种视觉任务有效。同时,由于数量的未标记图像以及质量标签的费用和困难,预计自我监督的学习3D医学图像的潜力预计将是巨大的。但是,MIM对医学图像的适用性仍然不确定。在本文中,我们证明了掩盖的进度建模方法除自然图像外,还可以推进3D医学图像分析。我们研究掩盖图像建模策略如何从3D医疗图像段的角度利用绩效,作为一项代表性的下游任务:i)与天真的对比度学习相比,掩盖的图像建模ap-par-ap-par-ap-par casge casge casge casgence convelence contergencience convergence contressed of被监督的火车的融合甚至更高(1.40×)得分(1.40×),并最终会产生较高的股票; ii)预测具有较高遮盖比和相对较小的斑块大小的原始体素值是用于医学图像的非琐碎的自我监督借口任务; iii)重建重建的轻量级解码器或投影头对3D医疗图像的掩盖图像模型非常可靠,该图像可以加快训练并降低成本; iv)最后,我们还研究了应用不同图像分辨率和标记的数据比率的不同实际情况下的MIM方法的有效性。匿名代码可在https://github.com/zekaichen/mim-med3d上找到。
文本对图像和图像到文本翻译是在自然语言处理(NLP)和计算机视觉的交集中迅速发展的域。文本对图像生成涉及基于描述性文本输入的图像的综合。此过程利用高级机器学习模型,例如生成对抗网络(GAN)和扩散模型,创建与提供文本相匹配的连贯性和上下文相关的视觉效果。这些模型学习了文本描述和视觉特征之间的复杂关系,从而可以生产从现实的照片到艺术渲染的各种图像。相反,图像到文本翻译的重点是从视觉输入中生成文本描述。此任务利用卷积神经网络(CNN)与复发性神经网络(RNN)或变形金刚结合进行分析和解释图像的技术。目标是提取相关信息,捕获诸如对象,动作和上下文之类的细节,并将其转换为自然语言描述。这两个过程都在各个领域都有重要的应用程序,包括创建内容,视障人士的可访问性以及增强技术中的用户互动。
使用“图像分析”方法创建“人工智能模型”在技术界引起了轰动。“图像分析”使人们能够更好地理解相关过程。详细讨论了图像分析的各个方面,例如“模拟图像处理”、“数字图像处理”、“图像模式识别”和“图像采集”。这项研究旨在探索用于开发“人工智能”的技术。讨论了这些模型的优缺点,这将使年轻的研究人员了解哪种模型适合用于开发“人工智能模型”。具有一致人脸识别因素的图像分析将使读者了解系统的效率并满足需要即兴发挥的领域。已实施该方法以了解正在进行的过程的工作原理。已详细讨论了所提及主题的关键方面。这项研究旨在让读者详细了解该问题,并为进一步研究开辟新的领域。