视觉模型(VLM)的在线测试时间适应(OTTA)最近引起了人们的注意,以利用沿流观察到的数据,以改善未来的预测。不幸的是,现有方法依赖于数据集特异性的超参数,从而大大限制了它们对看不见的任务的适应性。为了响应,我们提出了在线高斯适应(OGA),这是一种新颖的方法,该方法使用高斯分布来对视觉特征的可能性进行建模,并将零摄影先验纳入可启动的最大a后验(MAP)估计框架中,并与所有数据集中的固定超参数一起使用。我们证明,在大多数数据集和运行中,OGA优于最先进的方法。此外,我们表明,将OTTA与流行的几弹技术结合起来(一种实用但被忽视的先前研究环境)是非常有益的。此外,我们的实验研究表明,由于所有OTTA方法在运行中观察到的实质性可变性,常见的OTTA评估方案的平均性能在每个数据集中最多要超过三个。因此,我们主张更多的索式评估实践,包括增加运行的数量和考虑其他定量指标,例如我们提出的预期尾巴准确性(ETA),计算为最差10%的运行中的平均准确性。我们希望这些贡献将鼓励OTTA社区中更严格,更多样化的评估实践。代码可在https://github.com/cfuchs2023/oga上找到。
摘要 - 现实生活中的机器人导航不仅涉及到达目的地;它需要在解决方案特定目标的同时优化运动。人类表达这些目标的一种直观方式是通过诸如口头命令或粗略草图之类的抽象提示。这样的人类指导可能缺乏细节或嘈杂。尽管如此,我们希望机器人能够按预期导航。让机器人根据人类期望来解释和执行这些抽象说明,他们必须与人类对基本导航概念有共同的理解。为此,我们介绍了Canvas,这是一个新颖的框架,结合了常识感知导航的视觉和语言说明。它的成功是由模仿学习驱动的,使机器人能够从人类航行行为中学习。我们提出命令,这是一个具有人类通知结果的综合数据集,范围超过48小时,219公里,旨在训练模拟环境中的常识性导航系统。我们的实验表明,画布在所有环境中都超过了强大的基于规则的系统,并以嘈杂的说明显示出了卓越的性能。值得注意的是,在果园环境中,Ros Navstack记录了总成功率0%,帆布的总成功率为67%。画布也与人类的示范和常识性约束密切一致,即使在看不见的环境中也是如此。此外,画布的现实部署展示了令人印象深刻的Sim2real转移,总成功率为69%,强调了在模拟环境中为现实世界应用中的人类展示学习的潜力。
本文旨在使用最全面和最新的数据库开发一个独特的人工神经网络(ANN)的方程以及基于MATLAB和PYTHON的图形用户界面(GUI),以预先指示轴向填充的混凝土混凝土填充的混凝土混凝土填充的混凝土填充混凝土填充的双层皮肤管(CFDST)短材料和湿润的柱子,并用正常的材料和高音材料材料。使用1721组数据训练和测试了两种机器学习(ML)方法,它们是ANN和极端梯度提升(XGBOOST),其中129种从实验研究中收集了129个,而有限元(FE)模拟产生了1592个。通过将其预测与实验和FE结果进行比较,评估了开发的ML模型的准确性。为了证明每个参数对预测结果的影响,使用了Shapley添加说明(SHAP)方法。开发的ML模型还用于进行参数研究,以检查几何和材料参数对预测结果的影响。将ML模型的准确性和所提出的基于ANN的方程式预测CFDST列的最终轴向容量的准确性与六种设计方法的轴向容量进行了比较。提出了一个数值示例,以使用拟议的基于ANN的方程来说明CFDST列的设计过程。结果表明,ANN模型在看不见的数据上的性能要比XGBoost模型更好,该模型的XGBoost模型在测试集中均均方根误差较低。结果还表明,在预测准确性方面,ML模型和提出的基于ANN的方程优于其他设计模型。
摘要:通过几乎没有学习的可能性增强脑肿瘤分割的潜力是巨大的。虽然几个深度学习网络(DNN)显示出令人鼓舞的分割结果,但它们都采用了大量的培训数据,以产生适当的结果。此外,对于大多数这些模型而言,一个突出的问题是在看不见的课程中表现良好。为了克服这些挑战,我们提出了一个单次学习模型,以基于单个原型相似性评分来分割脑磁共振图像(MRI)上的脑肿瘤。使用最近开发的几乎没有弹药的学习技术,通过支持和查询图像进行训练和测试,我们试图通过专注于包含前景类别的切片来获取明确的肿瘤区域。与使用整个图像集的其他最近的DNN不同。该模型的训练是以迭代方式进行的,在每个迭代中,随机切片中包含前景类别的随机抽样数据的剪辑被选为查询集,以及与支持集的同一样本的不同随机切片。为了将查询图像与类原型区分开,我们使用了基于非参数阈值的基于公制的学习方法。我们采用了具有60次训练图像和350次测试图像的多模式脑肿瘤图像分割(Brats)2021数据集。使用平均骰子得分和平均得分评估模型的有效性。实验结果提供的骰子得分为83.42,比文献中的其他作品还要大。此外,所提出的单发分割模型在计算时间,内存使用情况和数据数方面优于常规方法。
对象导航(ObjectNav)要求代理在看不见的环境中导航以找到查询对象。许多以前的方法试图通过依靠经过跨越或强化学习来解决此任务,在该学习中,它们在具有近距离对象的有限家庭数据集上进行了培训。然而,尚未解决两个主要挑战:了解自由形式的自然语言指令,要求开放式观察,并以零拍的方式推广到新环境。旨在解决这两个挑战,在本文中,我们提出了OpenFM- NAV,这是一个基于零照射对象导航的基于odel m ODEL M ODEL的框架。我们首先释放了大型语言模型(LLMS)的推理能力,以从满足用户需求的自然语言指令中提取拟议的观察。然后,我们利用大型视觉语言模型(VLM)的普遍性来积极地从场景中发现和脱离候选对象,建立多功能语义得分图(VSSM)。然后,通过对VSSM进行常识推理,我们的方法可以对场景进行有效的语言引导探索和剥削,并最终达到目标。通过利用基础模型的推理和概括,我们的方法可以理解自由形式的人类指示并在不同环境中进行有效的开放式零射门导航。在HM3D ObjectNAV基准上进行的广泛实验表明,我们的方法超过了所有指标上的所有强基础,证明了我们方法的有效性。1此外,我们执行真实的机器人演示,以验证我们方法对现实环境的开放定点性和普遍性。
仍然开着笨重的车,坦率得像手镯和手镯相互碰撞的声音,手指分开发出快速广告的声音,然后猛地冲出车门,她站起来时手臂的凸起在边缘上晃动,她叉腰穿过花裙子穿过停车场,再次摸索着找笔、找钱包,在低效中寻找艺术。睁大眼睛,自由自在,“我女儿是不是喝太多水了?我是不是在用他永远答应读完的散文,让我的儿子保持干净,他自己太忙了,无暇顾及?”在无聊之前,他会在包带上表演杂技,缺乏灵活性,但用双手抱膝的爱弥补了这一点,只有一辆四轮驱动车现在适合一个天真的逝去者的长腿。我从来不知道房间会不够用,助理会询问他的衣服颜色,我最爱的人会对我保持沉默,我长大的方式现在听起来会不合时宜,恐怖的浴室是新的绿色山丘。一堆堆因邮寄而破裂的瓷砖保持不平衡,马蝇睡在窗户里,在灯光下死去,烟雾缭绕的杂工在看不见的现场阻止入侵者,而渴望机智的邻居们给一个诚实的女人制造了挑战,她开着自己的车,躺在砾石或肥鹅卵石上,不受灰色砌块和光滑胶囊文化的影响;只有在父亲约翰离开后,她才会动摇。就像孤独的火柴使火灾不可避免一样,更神奇的是房子仍然屹立不倒,而那种红色的表情却没有机会。睡在树上,阳光发现自己很忠诚,用她真正的智慧与一架飞机的高度相匹配,她知道她的飞地肯定只能是她自己和她的音乐,只有她能听到,直到你停下来。
临床内分泌学领域以及医疗保健,正面临着新技术的变革性变化,尤其是人工智能(AI)。AI有望大大改善我们筛选,诊断,治疗,监测和教练患者的方式(1,2)。AI工具不仅会使内分泌决策的流程更快,更可靠,因此AI的使用为针对个人患者特征量身定制的个性化治疗计划开辟了道路(3,4)。AI是涵盖机器学习(ML)的计算机科学领域。ml使用旨在做出预测或分类的数学算法。这些模型通常在已知的,标记的数据集上进行训练,并迭代地增强,以获得对看不见的数据进行准确预测的能力(5)。深度学习(DL)是ML的一个子集,使用模仿人类中枢神经系统的复杂模型。dl需要使用人工神经网络(ANN)。ANN由互连层组成,这些图层通过最小化误差(6)来传递信息并优化预测。一旦受过培训,ANN可以处理庞大而复杂的数据集,以执行预测,分类,甚至更高级的应用程序等任务,例如大型语言模型(LLMS),计算机视觉和多媒体生成,从文本输入(7-9)中生成。我们预计AI会造成临床内分泌学的前所未有的破坏。尽管如此,大多数临床医生一方面缺乏对临床AI潜力的正确理解,另一方面,缺点和警告。对AI基础的平衡理解必须最大化其利益。因此,医疗保健提供者必须熟悉这项新技术,但也必须了解其局限性。表1概述了基于AI的工具与临床内分泌学中常规方法之间的差异。本文的目的是概述AI在临床内分泌学和糖尿病领域中的潜在和未来方向。
摘要。目的:本研究探讨颅内电极捕获的神经信号的语音解码。大多数先前的研究只能使用 2D 网格上的电极(即脑皮层电图或 ECoG 阵列)和来自单个患者的数据。我们的目标是设计一个深度学习模型架构,可以同时适应表面(ECoG)和深度(立体定向 EEG 或 sEEG)电极。该架构应允许使用来自多个参与者的数据进行训练,这些参与者的电极位置变化很大,并且训练后的模型应该在训练期间未见过的参与者身上表现良好。方法:我们提出了一种名为 SwinTW 的新型基于变压器的模型架构,该架构可以与任意定位的电极一起工作,通过利用它们在皮层上的 3D 位置而不是它们在 2D 网格上的位置。我们使用来自单个参与者的数据训练特定于主题的模型,以及利用来自多个参与者的数据的多患者模型。主要结果:仅使用低密度 8x8 ECoG 数据的受试者特定模型在 N=43 名参与者中实现了高解码皮尔逊相关系数与地面实况频谱图 (PCC=0.817),优于我们之前的卷积 ResNet 模型和 3D Swin Transformer 模型。在每个参与者 (N=39) 中加入额外的条带、深度和网格电极可带来进一步的改进 (PCC=0.838)。对于只有 sEEG 电极的参与者 (N=9),受试者特定模型仍然具有可比的性能,平均 PCC=0.798。多受试者模型在看不见的参与者身上实现了高性能,在留一交叉验证中平均 PCC=0.765。意义:提出的 SwinTW 解码器使未来的语音神经假体能够利用任何对特定参与者来说临床上最佳或可行的电极位置,包括仅使用更常规的深度电极
研究。数据集应代表各种用户和不同的上下文,以捕获各种变化。之后,我们需要准备数据并训练模型。训练将重复一百甚至一千次,以找到最合适的模型结构和超参数,这些模型结构和超级参数会导致使用试用和误差或网格搜索的测试集中最低模型误差。由于成千上万的迭代可能导致对测试集的过度拟合,因此必须使用先前看不见的数据评估模型的推广性,以评估所选模型和超参数是否已过拟合到验证集或推广到看不见的数据。深度学习社区在开发模型时通常会使用训练验证测试分解。在训练集和验证集用于迭代模型开发时,测试集用于一次性验证模型。但是,传统的机器学习评估指标(例如,准确性,精度,召回和错误率,以描述模型对看不见的数据的推广程度)并不描述系统的可用性。UCD过程的主要重点是实现高可用性。而不是软件指标,例如推理错误对可用性,模型稳定性和研究系统的有用性等因素。这可能涉及基本问题,例如对给定用例感知的可用性以及影响力的影响程度以及随着时间的推移估计的噪音多么嘈杂。在互动中应用深度学习技术由于系统使用了多种用户,在不同的情况下,验证还需要评估该模型是否可以推广到数据收集研究中使用的任务。虽然先前的工作认为准确性超过80%以至于足够[6],但充分性取决于用例,只能通过用户反馈来评估,例如,该动作的后果是否可恢复以及后果对用户的影响有多大。总而言之,一个深度学习的典型过程描述了开发和评估黑盒模型的迭代性质。但是,深度学习开发过程并未考虑模型的可用性以及最终系统的可用性。
摘要。目的:本研究探讨颅内电极捕获的神经信号的语音解码。大多数先前的研究只能处理 2D 网格上的电极(即脑皮层电图或 ECoG 阵列)和来自单个患者的数据。我们的目标是设计一个深度学习模型架构,可以同时适应表面(ECoG)和深度(立体定向 EEG 或 sEEG)电极。该架构应允许使用来自多个参与者的数据进行训练,这些参与者的电极位置变化很大,并且训练后的模型应该在训练期间未见过的参与者身上表现良好。方法:我们提出了一种名为 SwinTW 的新型基于变压器的模型架构,该架构可以利用任意位置的电极在皮层上的 3D 位置而不是它们在 2D 网格上的位置来处理它们。我们使用来自单个参与者的数据训练特定于主题的模型,并利用来自多个参与者的数据训练多患者模型。主要结果:仅使用低密度 8x8 ECoG 数据的受试者特定模型在 N=43 名参与者中实现了高解码皮尔逊相关系数与地面实况频谱图 (PCC=0.817),优于我们之前的卷积 ResNet 模型和 3D Swin Transformer 模型。在每个参与者 (N=39) 中加入额外的条带、深度和网格电极可带来进一步的改进 (PCC=0.838)。对于只有 sEEG 电极的参与者 (N=9),受试者特定模型仍然具有可比的性能,平均 PCC=0.798。多受试者模型在看不见的参与者身上实现了高性能,在留一交叉验证中平均 PCC=0.765。意义:提出的 SwinTW 解码器使未来的语音神经假体能够利用任何对特定参与者来说临床上最佳或可行的电极位置,包括仅使用更常规的深度电极