最近,密集的潜在变量模型已显示出令人鼓舞的结果,但是它们的分布式和潜在的代码使它们降低了易于解释,并且对噪声的影响较低。另一方面,稀疏表示更为简约,提供了更好的解释性和噪声稳健性,但是由于涉及的复杂性和计算成本,很难实现稀疏性。在此过程中,我们提出了一种新颖的无监督学习方法,以利用逐渐稀疏的尖峰和平板分布作为我们的先验,以在发电机模型的潜在空间上强化稀疏性。我们的模型由自上而下的发电网络组成,该网络将潜在变量映射到观测值。我们使用最大似然采样来推断发电机后方向的潜在变量,并且推理阶段的尖峰和平板正则化可以通过将非信息性潜在维度推动到零来引起稀疏性。我们的实验表明,学到的稀疏潜在表示保留了大多数信息,我们的模型可以学习解开的语义,并赋予潜在代码的解释性,并增强分类和denosing任务的鲁棒性。
尽管隐式神经表征 (INR) 近期取得了进展,但对于基于坐标的 INR 多层感知器 (MLP) 来说,学习跨数据实例的通用表征并将其推广至未见实例仍然具有挑战性。在这项工作中,我们为可推广的 INR 引入了一个简单而有效的框架,该框架使基于坐标的 MLP 能够通过仅调节早期 MLP 层中的一小组权重作为实例模式组合器来表示复杂数据实例;其余 MLP 权重学习跨实例通用表示的模式组合规则。我们的可推广 INR 框架与现有的元学习和超网络完全兼容,可用于学习预测未见实例的调节权重。大量实验表明,我们的方法在音频、图像和 3D 对象等广泛领域都实现了高性能,而消融研究验证了我们的权重调节。
从私法角度的摘要中,化身的法律地位 - 化身或我们在荟萃分析中的数字表示形式通常被视为虚拟世界的有趣而独特的方面,但是它们使用的法律含义以及潜在的滥用 - 仍然很大程度上没有探索。在本文中,我解决了个人在在线虚拟平台中利用化身有关的各种问题,强调了它们的潜在收益优势和潜在问题。在这种情况下,我非常需要澄清元评估的内容,并提出了一个以私人法律为导向的框架来思考和调节数字化头像的某些方面,以合法的可行方式进行思考。Sumario - Los Avatares, o las representaciones de nosotros mismos en el Metaverso, con frecuencia son vistos como aspectos divertidos y únicos de los mundos virtuales, no obstante, las implicaciones jurídicas de su uso —y abuso— aún son un área mayormente inexplorada.En este artículo presento varias de las dificultades jurídicas que plantea el uso de los avatares en el en las plataformas del Metaverso, resaltando tanto sus potenciales beneficios como problemas.Para ello, ofrezco una muy necesaria aclaración de lo que es el Metaverso, y propongo un marco para analizar lo que podría ser una regulación de los Avatares de forma jurídicamente viable, especialmente desde el punto de vista del Derecho Privado.标题:UnRégimenJurídicopara los avatares en el Metaverso desde la Perspectiva del derecho privado。- 关键字:元文书,化身,私法,民事责任,法定人格,数字资产,NFT,产品责任,人工智能。关键字:元弗罗索,阿凡达,私法,法律人格,民事责任,数字资产,NFT,对产品有缺陷的责任,人工智能。 div>- doi:10.31009/indret.2024.i2.03
开放式对象检测(OSOD)已成为当代研究方向,以解决对未知对象的检测。最近,很少有作品通过使用Con-Contrastive聚类来分开未知类,在OSOD任务中实现了可观的性能。相比之下,我们提出了一种新的基于语义聚类的方法,以促进语义空间中有意义的群集的对齐,并引入一个类去相关模块以实现群间间的分离。我们的方法进一步不适合对象焦点模块预测对象分数,从而增强了未知对象的检测。此外,我们采用了i)一种评估技术,该技术对低置信度输出进行了惩罚,以减轻对未知对象的错误分类的风险,ii)一种称为HMP的新指标,该指标使用hMP使用Har-nonic Mean结合了已知和未知的精度。我们的广泛实验表明,所提出的模型可以在OSOD任务上对MS-Coco&Pascal VOC数据集有显着改进。
近年来,已经提出了连续的潜在空间(CLS)和DISCRETE潜在空间(DLS)深度学习模型,以改善医学图像分析。但是,这些模型遇到了不同的挑战。cls模型捕获了复杂的细节,但由于其强调低级特征,因此在结构表示和易男性方面通常缺乏解释性。尤其是,DLS模型提供了可解释性,鲁棒性以及由于其结构性潜在空间而捕获粗粒度信息的能力。但是,DLS模型在捕获细粒细节方面的功效有限。为了确定DLS和CLS模型的局限性,我们采用了Synergynet,这是一种新型的瓶颈体系结构,旨在增强现有的编码器 - 核编码器分割框架。Synergynet无缝地将离散和连续的表示形式整合到利用互补信息中,并成功保留了细学的表示的细节。我们对多器官分割和CAR-DIAC数据集进行的实验实验表明,SynergyNet的表现优于包括Transunet:Transunet:DICE评分提高2.16%的其他最新方法,而Hausdorff分别分别提高了11.13%。在评估皮肤病变和脑肿瘤分割数据集时,我们观察到皮肤病变分割的交互分数的1.71%的重新提高,脑肿瘤分割的增长率为8.58%。我们的创新方法为增强医学图像分析关键领域中深度学习模型的整体性能和能力铺平了道路。
解码人脑一直是神经科学家和人工智能研究人员的标志。重新构建来自脑电脑脑电图(EEG)信号的视觉图像,由于其在脑部计算机接口中的应用,引起了人们的极大兴趣。本研究提出了一种两阶段的方法,其中第一步是获得脑电图衍生的特征,以稳健地学习深度代表,然后将学习的表示形式用于图像产生和分类。我们使用具有监督和对比度学习方法的深度学习体系结构在三个不同的数据集中进行了特征提取管道的普遍性。我们已经执行了零摄影的脑电图分类任务,以进一步支持概括性索赔。我们观察到,与脑电图和图像之间的联合代表学习相比,在单峰设置中仅使用脑电图数据来学习一个单独使用脑电图数据的近距离线性分离的视觉表示。最后,我们提出了一个新颖的框架,将看不见的图像转换为脑电图空间,并以近似值重建它们,从而展示了来自EEG信号的图像重建潜力。我们提出的来自EEG的图像合成方法显示了62。9%和36。EEGCVPR40和ThoughtViz数据集的成立得分提高了13%,这比GAN 1中的最先进的表现效果。EEGCVPR40和ThoughtViz数据集的成立得分提高了13%,这比GAN 1中的最先进的表现效果。
大脑解码技术为解释神经活动的解释以重现思想,情感和运动的方式铺平了道路。Tang等。 (2023)引入了一种新颖的方法,该方法将语言模型用作基于功能磁共振成像(fMRI)数据的大脑解码的生成模型。 在他们的工作中构建,这项研究探讨了使用三种其他语言模型的使用以及先前研究中使用的GPT模型,以改善解码功能。 此外,我们使用嵌入模型添加了一个评估度量,提供了比BertScore更高水平的语义相似性。 通过比较解码的表现并确定导致良好性能的因素,我们发现高解码精度并不仅仅取决于准确预测大脑活动的能力。 相反,该模型倾向于生成更精确的句子重新构造的文本类型(例如Web文本,博客,新闻文章和书籍),它倾向于生成更重要的作用。Tang等。(2023)引入了一种新颖的方法,该方法将语言模型用作基于功能磁共振成像(fMRI)数据的大脑解码的生成模型。在他们的工作中构建,这项研究探讨了使用三种其他语言模型的使用以及先前研究中使用的GPT模型,以改善解码功能。此外,我们使用嵌入模型添加了一个评估度量,提供了比BertScore更高水平的语义相似性。通过比较解码的表现并确定导致良好性能的因素,我们发现高解码精度并不仅仅取决于准确预测大脑活动的能力。相反,该模型倾向于生成更精确的句子重新构造的文本类型(例如Web文本,博客,新闻文章和书籍),它倾向于生成更重要的作用。
摘要 光标、头像、虚拟手或工具以及其他渲染的图形对象使用户能够与 PC、游戏机或虚拟现实系统等计算机进行交互。我们从用户的角度在“用户表征”的统一概念下分析这些不同对象的作用。这些表征是虚拟对象,它们人为地延伸了用户的身体,使他们能够通过执行不断映射到其用户表征的运动动作来操纵虚拟环境。在本文中,我们确定了一组与不同用户表征相关的概念,并对用户表征的控制和主观体验背后的多感官和认知因素进行了多学科回顾。这些概念包括视觉外观、多模态反馈、主动感、输入法、近体空间、视觉视角和身体所有权。我们进一步为这些概念提出了研究议程,这可以引导人机交互社区从更广泛的视角了解用户如何通过他们的用户表征进行感知和交互。
背景:静息态功能性磁共振成像 fMRI (rs- fMRI) 已广泛用于研究精神疾病的大脑功能,从而深入了解大脑组织。然而,rs-fMRI 数据的高维性给数据分析带来了重大挑战。变分自动编码器 (VAE) 是一种神经网络,在提取静息态功能连接 (rsFC) 模式的低维潜在表示方面发挥了重要作用,从而解决了 rs-fMRI 数据的复杂非线性结构。尽管取得了这些进展,但解释这些潜在表示仍然是一个挑战。本文旨在通过开发可解释的 VAE 模型并使用 rs-fMRI 数据在自闭症谱系障碍 (ASD) 中测试其效用来解决这一差距。
从网络数据中学习可概括的视觉表示已为机器人技术带来了令人鼓舞的结果。然而,预循环方法着眼于预训练2D表示,是应对闭塞的优势,并在复杂的3D场景中准确地将对象定位。同时,3D代表学习仅限于单对象。为了解决这些局限性,我们引入了一个名为Sugar的机器人技术的新型3D预训练框架,该框架通过3D点云捕获对象的语义,几何和负担性能。我们强调了3D表示学习中混乱场景的重要性,并自动构建一个受益于模拟中无需成本监督的多对象数据集。Sugar采用一种多功能变压器的模型来共同解决五个预训练任务,即用于语义学习的跨模式知识蒸馏,以掩盖点建模,以取消几何结构,掌握姿势合成以进行对象负担,3D实例分割和引用表达地面以分析杂乱无章的场景。我们对三个与机器人相关的任务进行了学习的代表,即零射击3D对象识别,引用凸起的接地和语言驱动的机器人操作。实验结果表明,糖的3D表示优于最先进的2D和3D表示。
