视觉语言(VL)模型已获得了显着的重点,从而在多模式推理方面取得了显着进步。这些体系结构通常包括视觉编码器,大型语言模型(LLM)和一个将视觉特征与LLM的代表空间保持一致的投影模块。尽管他们成功了,但仍然存在一个关键的限制:愿景编码过程仍然与用户查询相关,通常是以与图像相关的问题的形式。因此,所得的视觉特征可能无法最佳地调整图像的特定元素。为了解决这个问题,我们介绍了QA-Vit,这是一种问题的多模式原因,这是一种问题,将问题意识直接嵌入到视觉编码器中。此集成导致动态视觉特征,重点是提出问题的相关图像方面。QA-VIT是模型 - 静态的,并且可以有效地将其置于任何VL体系结构中。广泛的经验证明了将我们的方法应用于各种多模式体系结构的有效性,从而导致跨不同任务的一致改进,并展示了其以增强视觉和场景文本理解的能力。
摘要:家禽业在全球农业中起关键作用,家禽是蛋白质的主要来源,并为经济增长做出了重大贡献。但是,该行业面临着与重复性且苛刻的劳动密集型任务相关的挑战。自动化已成为提高运营效率并提高工作条件的关键解决方案。具体来说,机器人的操纵和对象的处理在工厂中变得无处不在。但是,存在挑战以预先识别和引导机器人处理一堆具有相似纹理和颜色的物体。本文着重于开发旨在自动化鸡的机器人解决方案的视觉系统,该机器人解决过程是一种基本的,但在家禽加工中是一种基本但身体上剧烈的活动。为了解决通用实例分割模型在识别重叠对象中的限制,开发了一种具有成本效益的双重活性激光扫描系统来生成对象上的精确深度数据。将经过良好的深度数据生成与RGB图像集成在一起,并将其发送到实例分割模型以进行单个鸡检测和识别。这种增强的方法显着改善了该模型在处理涉及重叠鸡的复杂场景中的性能。具体而言,RGB-D数据的集成将模型的平均平均精度(MAP)检测准确性提高了4.9%,并显着改善了中心偏移 - 本研究中引入的定制度量标准,以量化地面真相蒙版中心与预测的面具中心之间的距离。精确的中心检测对于开发未来的机器人控制解决方案至关重要,因为它可以确保在鸡肉重定过程中准确抓住。中心偏移量从22.09像素(7.30 mm)降低到8.09像素(2.65 mm),证明了该方法在缓解闭塞挑战和增强视觉系统的可靠性方面的有效性。
摘要:SAPHO综合征是一种系统性炎症性疾病,其特征是皮肤病变和骨骼和关节的炎症变化。对SAPHO综合征的治疗策略尚无共识。对于难治性SAPHO综合征患者,可以考虑生物剂。我们报告了三名对常规疗法反应不佳的患者,他们在接受secukinumab后所有这些患者都有脓疱病的矛盾复发,并且在调整到tofacitinib后解决了矛盾的脓疱病。我们审查了文献,并得出结论,Secukinumab可能对治疗Sapho综合征可能有风险。皮疹的这种矛盾加重可能与矛盾的牛皮癣有关。特定的发病机理尚不清楚,tofacitinib可能是这种情况的一种补救措施。关键字:Sapho,PPP,IL-17,Secukinumab,矛盾的牛皮癣
Advanced Pharmacy Australia(ADPHA)是澳大利亚药剂师和技术人员的进步声音,建立在80多年的医院创新上,使患者成为我们所做的一切的中心。ADPHA支持所有药房从业人员,并与跨医院和卫生服务的跨学科团队合作,以实现其全部潜力。我们是致力于建立医疗保健方面更牢固联系的峰值机构,这是需要将高级药房专业知识从医院扩展到需要药物的任何地方。
摘要 - 基于端到端视力的模仿学习已直接从专家演示中学习控制命令来证明自主驾驶的有希望的结果。然而,传统方法依赖于基于回归的模型,这些模型提供了精确的控制,但缺乏一致性估计或基于分类的模型,这些模型提供了置信度得分,但由于分离而降低了精度。此限制使量化预测行动的可靠性并在必要时应用更正是一项挑战。在这项工作中,我们引入了双头神经网络体系结构,该架构既集成回归和分类负责人,以提高模仿学习中的决策可靠性。回归负责人预测了连续的驾驶动作,而分类头则估计了置信度,从而实现了一种调整机制,该校正机制可以调整低信心情景中的动作,从而增强了驾驶稳定性。我们在Carla模拟器内的闭环环境中评估了我们的方法,证明了其检测不确定的动作,估计信心并应用实时校正的能力。实验结果表明,我们的方法可降低车道偏差,并提高了传统精度高达50%,表现优于常规回归模型。这些发现突出了分类指导置信度估计的潜力,以增强基于视觉的模仿学习对自主驾驶的鲁棒性。源代码可在https:// github上找到。com/elahedlv/profester_aware_il。
摘要 - 增强学习(RL)已经证明了在空中机器人控制中的短期培训中保持政策可塑性的能力。但是,在非平稳环境中长期学习时,这些策略已显示出可塑性的丧失。例如,观察到标准近端策略优化(PPO)策略在长期培训环境中崩溃并导致重大控制绩效降级。为了解决这个问题,这项工作提出了一项成本吸引力的框架,该工作使用回顾性成本机制(ROCOM)与非固定环境平衡RL培训中的奖励和损失。使用奖励和损失之间的成本梯度关系,我们的框架动态更新了学习率,以在受干扰的风环境中积极训练控制政策。我们的实验结果表明,我们的框架在不同的风条件下学习了悬停任务的政策,而在可变的风条件下,与使用PPO的L2正则化相比,在可变风条件下的政策崩溃,休眠单位的休眠单位少11.29%。项目网站:https://aerialroboticsgroup.github.io/ rl-plasticity-project/
hal是一个多学科的开放访问档案,用于存款和传播科学研究文件,无论它们是否已发表。这些文件可能来自法国或国外的教学和研究机构,也可能来自公共或私人研究中心。
医疗保健中的联邦学习(FL)患有非相同分布的(非IID)数据,从而影响模型收敛和性能。虽然现有的非IID问题解决方案通常不会量化联邦客户之间的非IID性质程度,但评估它可以改善培训经验和成果,尤其是在不熟悉数据集的现实世界中。本文提出了一种实用的非IID评估方法,用于医疗分割问题,强调了其在佛罗里达州的重要性。我们提出了一种简单而有效的解决方案,该解决方案利用了医疗图像的嵌入空间和对其元数据计算的统计测量结果。我们的方法是为医学成像而设计的,并集成到联邦平均值中,通过降低最遥远的客户的贡献,将其视为离群值,从而改善了模型的概括。此外,它通过引入客户的基于距离的聚类来增强模型个性化。据我们所知,这种方法是第一个使用基于距离的技术来为医学成像域内非IID问题提供实际解决方案的方法。此外,我们验证了三个公共FL成像放射学数据集的方法(Fets(Pati等人,2021),前列腺(Liu等人,2020b),(Liu等人,2020a)和Fed-Kits2019(Terrail等人,2022)))在各种放射学成像方案中证明其有效性。关键字:联合学习,非IID数据,个性化,概括,医学细分,医学成像。
摘要 - 每年,数以百万计的患者在手术过程中恢复意识,并可能患有创伤后疾病。我们最近表明,可以使用脑电图(EEG)信号的中位神经刺激过程中的运动活动检测来提醒医务人员,患者正在醒来并试图在全身麻醉下移动[1],[2]。在这项工作中,我们测量了直接训练对过滤的EEG数据进行训练的多种深度学习模型(EEGNET,深卷积网络和浅卷积网络)的运动图像的准确性和假阳性。我们将它们与有效的非深度方法进行了比较,即基于常见空间模式的线性判别分析,即应用于协方差矩阵的Riemannian Mean Mean Algorithm的最小距离,基于逻辑回归的逻辑回归,这是基于逻辑回归的,这是对协方差矩阵(TSS+LR)的较相关的空间投影。与其他分类器相比,EEGNET显着提高了分类性能的显着提高(p-值<0.01);此外,它的表现优于最佳的非深度clas-sifier(TS+LR),其精度为7.2%。这种方法有望改善全身麻醉期间术中意识检测。
摘要。术中脑移位是一种众所周知的现象,它描述了由于重力和脑脊液的丧失而在其他现象中描述了脑组织的非刚性变形。这对手术结果具有负面影响,这通常是基于不考虑大脑转移的术前计划。我们提出了一种新型的大脑意识到的增强现实方法,将术前3D数据与通过手术显微镜观察的变形大脑表面相结合。我们将非刚性登记作为形状结构化问题提出。术前3D线状可变形模型被注册到皮质容器的Single 2D图像上,该模型自动分割。此3D/2D登记驱动肿瘤等潜在的大脑结构,并弥补了亚皮质区域的大脑转移。我们评估了由6名材料组成的模拟和真实数据的方法。它实现了良好的定量和定性结果,使其适合神经外科指导。