摘要在本文中,我们旨在使用深层神经网络从多云的光学图像和对齐的合成孔径雷达(SAR)图像中恢复无云的光学图像。与以前的方法相反,我们观察到卫星图像特征通常没有首选方向。通过使网络层遵守改变输入图像的方向的几何约束,可以将此见解纳入神经座的设计中,只能改变相应的输出图像的方向,而不必影响秘密的质量或细节。我们构建了一个多模式旋转 - 等级神经网络,称为EquICR(Equivariant Cloud Removal),该网络准确地编码了此几何。在接受公共SEN12MSCR数据集接受培训时,我们观察到使用EquiCR的重建图像质量的改善,与使用深度学习无内置旋转等效性相比。有趣的是,在更困难的情况下,当云覆盖量很高或训练数据集很小时,EquiCR对基线方法的改善更大。
摘要 - 发现模型正在迅速改善机器人在自动执行日常任务(例如膳食准备)中的可容纳能力,但是由于模型性能,捕获用户偏好的难度以及对用户代理的需求,人类仍需要指示人类指导机器人。机器人可以使用各种方法指导 - 自然语言传达了即时的说明,但可以是抽象的或模棱两可的,而最终用户编程则支持更长的地平线任务,但接口面临捕获用户意图的困难。在这项工作中,我们建议将图像直接操纵作为替代范式来指导机器人,并介绍一个名为ImageInthat的特定实例化,该实例化允许用户在时间表式接口中对图像进行直接操纵,以生成机器人指令。通过用户研究,我们演示了ImageInthat在厨房操作任务中指导机器人的功效,并将其与基于文本的自然语言指令方法进行比较。结果表明,参与者使用ImageInthat的速度更快,并且更喜欢在基于文本的方法上使用它。补充材料,包括代码,请参见:https://image-in-that.github.io/。索引术语 - 用户机器人编程,直接操纵,机器人指令
从单目图像重建3D物体是计算机视觉领域的一个基本问题。高效的重建系统能够开辟广泛的应用领域,包括增强现实、电影制作和制造业。单目3D重建也是一个复杂的逆问题:虽然可见表面可以通过阴影估计,但预测遮挡表面需要强大的3D物体先验知识。我们的领域已经在两个不同的方向上出现了分歧:前馈回归[2、10、19、24、25、27、37、53、54、59-62、65、66、69]和基于扩散的生成[6、8、9、26、29、31-35、39、46-48、68、71]。尽管在两个方向上都取得了重大进展,但每个方向都有根本的局限性。基于回归的模型在粘附图像中的可见表面方面非常有效,并且推理速度通常很快。然而,它们对图像和 3D 之间的双射映射做出了过于简单的假设。这一假设在学习目标中引入了模糊性,导致遮挡区域的表面和纹理估计不佳。另一方面,基于扩散的方法是生成性的,不能预测统计平均值。然而,在建模高分辨率 3D 时,它们在推理时的迭代采样计算效率低下。此外,[27] 等先前的研究表明,扩散生成的 3D 模型与输入图像中可见表面的对齐效果较差。我们如何才能兼顾两者的优点而又避免它们的局限性?有鉴于此,我们提出了 SPAR3D,它将 3D 重建过程分为两个阶段:点采样阶段和网格划分阶段。点采样阶段使用扩散模型生成稀疏点云,然后是网格划分阶段,将点云转换为高度详细的网格。我们的主要思想是将不确定性建模转移到点采样阶段,在此阶段,点云的低分辨率允许快速迭代采样。随后的网格划分阶段利用局部图像特征将点云转换为具有高输出保真度的详细网格。减少点云网格划分的不确定性进一步促进了逆渲染的无监督学习,从而减少了纹理中的烘焙照明。我们的两阶段设计使 SPAR3D 的性能显著优于以前的回归方法,同时保持了高计算效率和对输入观测的保真度。我们方法的一个关键设计选择是使用点云来连接两个阶段。为了确保快速重建,我们的中间表示需要轻量级,以便能够高效生成。另一方面,它应该为网格划分阶段提供足够的指导。这
目的:这项研究旨在开发一种新的卷积神经网络深度学习(DL)技术,用于从计算机上进行自动化的脑组织分割(CT)扫描,并与磁共振成像(MRI)分割相比评估其性能。材料和方法:这项多中心回顾性研究收集了来自两个机构的199个健康个体的配对CT和MRI数据。将数据分为一个训练集(n = 100)和一个机构的内部测试集(n = 50),其中第二个机构的附加数据集(n = 49)用于外部验证。灰质(GM),白质(WM)和脑脊液(CSF)的地面真相面膜是从T1加权MR图像中赋予的。为三个大脑区域中的每个区域中的每个区域训练了基于U-NET的DL模型,并根据VGG19计算了感知损失。通过计算连续骰子系数(CDICE),联合会(IOU)和第95个百分位数Hausdorff距离(HD95)来评估模型性能。使用定位系数(R 2),类内相关系数(ICC)和Bland-Altman分析,将基于CT的分割的体积估计与MRI衍生体积进行了比较。结果:接受感知损失的DL网络与未经感知损失的训练相比,表现出色。体积分析表明,在内部/外部测试中,GM和WM分别为r 2 = 0.83/0.90和0.85/0.87之间的MRI衍生地面真相与基于CT的分割之间的一致性是r 2 = 0.83/0.90和0.85/0.87,而ICC = 0.91/0.94和0.92/0.93。在内部测试中,评估得分(没有感知损失与感知损失)为:CDICE = 0.717 vs. 0.765,HD95 = 6.641 mm,gm中的6.641 mm vs. 6.314 mm; CDICE = 0.730 vs. 0.767和HD95 = 5.841毫米,而Wm为5.644 mm; CDICE = 0.600 vs. 0.630和HD95 = 5.641毫米,而CSF中的5.362 mm,分别是分数。结论:提出的DL方法随着感知损失而增强,可改善CT图像的脑部分割。这种方法显示了有望作为基于MRI的分割的一种替代方法。
摘要 - 地球观察卫星可以在不同的时间,气候条件和平台形式下捕获光学图像,在颜色和亮度上表现出很大的差异,在合成大面积光学卫星图像时会导致视觉体验差。相关的颜色平衡问题引起了研究人员的极大关注,但诸如缺乏研究数据和对模型参数的敏感性之类的挑战持续存在。为了解决这些问题,本文发布了一个公开开放的数据集,并提出了语义细分增强色彩平衡网络(SECBNET)。首先,为了减轻研究数据的稀缺性,我们开发了一个公共可用的遥感图像颜色平衡数据集,Zhu hai色彩平衡图像(ZHCBI),以支持相关的研究活动。第二,为了提高颜色平衡图像和目标图像之间的语义一致性,我们设计了以分割结果为指导的双分支U-NET架构,并提出了一种新颖的分割特征损失函数。最后,为了解决分段处理中块之间的接缝问题和不自然的过渡,我们引入了一个基于加权平均的后处理模块。我们对ZHCBI数据集上的现有主流颜色平衡算法进行了比较实验和分析。结果表明,与其他主流方法相比,我们所提出的方法可实现最先进的颜色平衡质量,并具有显着改善的视觉效果和更高的峰信噪比(PSNR)(23.64 dB)。
摘要:在当代社会中,生成AI(Genai)渗透日常生活的快速发展,学校必须跟上发展的发展。未来后代具有Genai技能和知识,就像传统扫盲是当今的招聘条件一样。学校课程需要整合这项新技术,以支持学生的学习和发展。关于人工教育的研究(AIED)已报告了Genai参与教学和学习的挑战,也报告了Genai作为研究支持的挑战。不落后于许多学校,就开始采取AIED计划,这需要研究如何以有用的方式在教学活动中应用Genai。指导这项研究的研究问题是:在视觉形式中使用GAI可以如何支持学生在中学环境中的学习过程和动机?总体研究策略是一种定性案例研究方法,研究员三角剖分。数据是在研讨会会议和半结构访谈中的观察结果中收集的。与老师和学生一起。在六步归纳性主题分析中,编码数据摘录,汇总到类别并提出。的发现表明,用于产生图像的Genai工具可以对学习产生积极影响。同时支持信息的记忆,对动机和学生满意度也产生了积极影响。图像生成工具的参与不是替代品,而是对传统教学活动的补充。结论是,在教育中使用AI可以提供新的学习机会,并且随着Genai的使用越来越多,对于学生和老师的步伐至关重要。但是,这将需要更多的时间和资源来为AIED的教师专业发展。
目的:脑硫在前婴儿中的分割对于监测其发育至关重要。虽然已将磁共振成像用于此目的,但颅内超声(CUS)是临床实践中使用的主要成像技术。在这里,我们介绍了第一项研究,旨在使用超声图像在前婴儿中自动化脑硫酸分割。方法:我们的研究集中于单个CUS平面中的Sylvian填充段(C3),尽管该方法可以扩展到其他硫和平面。我们在两种情况下评估了深度学习模型的性能,即特定于U-NET和RESU-NET,并在分割过程中自动化。首先,我们对从同一超声机获得的图像进行了交叉验证。第二,我们应用了调整技术来使模型适应从不同供应商中获取的图像。结果:在交叉验证实验中,RESU-NET方法分别达到了骰子和0.777和0.784的灵敏度得分。应用于外部数据集时,结果会根据与训练图像的相似性而变化。相似的图像产生了可比的结果,而不同的图像显示性能下降。另外,这项研究强调了Resu-net比U-NET的优势,这表明残留连接增强了模型学习和表示复杂的解剖结构的能力。结论:这项研究证明了使用深度学习模型自动分割CUS图像中的Sylvian finsure的可行性。脑硫的准确超声表征可以改善脑发育的不足,并有助于识别具有不同发育轨迹的婴儿,从而可能影响以后的功能结果。
大肠癌(CRC)的精确及时诊断对于增强患者预后至关重要。组织样品的组织病理学检查仍然是CRC诊断的金色标准,但这是一种耗时且主观的方法,倾向于观察到观察者间的变异性。本研究探讨了使用组织病理学图像对CRC自动分类的深度学习的使用,尤其是重新结构。我们的研究重点是评估不同的RESNET模型(RESNET-18,RESNET-34,RESNET-50),以提取相关的可见特征。此外,我们使用Grad-CAM热图来了解模型的重点领域,从而确保与已建立的诊断标准保持一致。为了解决有限的数据可用性,我们检查了数据增强技术以提高模型的适应性。我们的分析表明,RESNET-34在模型复杂性和性能之间达到平衡,表明总体,TOP-2和TOP-3精度分类的91.10%,99.11%和100.00%的精度分别超过了较浅的(Resnet-118)和更深的(Resnet-50)模型。这表明在捕获CRC图像的特征方面,模拟深度是实用的。我们的发现对于开发CRC的可解释的AI辅助诊断工具具有重要意义,并有可能提高病理学家的效率和准确性。这种方法旨在自动化图像分析,提供对模型决策的见解,并最终提高Oncol-Ogy的诊断一致性和患者护理。
Adesola Z. Musa 3,Oluwagbemiga Aina 3,Emmanuel T. Idowu 2和 *Kolapo M. Oyebola 1,3 1生物医学基因组研究中心(Cegrib)基因组研究中心(Cegrib),基础和应用科学学院,山上高级大学,山顶大学,山上12号,Lagos-bibadan Expressway,Nierveway,Niger-bibos-top University。 2寄生虫学和生物信息学部门,尼日利亚拉各斯分校科学系动物学系。 3尼日利亚尼日利亚医学研究所,尼日利亚。 4尼日利亚拉各斯基础医学学院生物化学系基础医学系。 5个遗传学,基因组学和生物信息学系,国家生物技术研发局,尼日利亚阿布贾。Adesola Z. Musa 3,Oluwagbemiga Aina 3,Emmanuel T. Idowu 2和 *Kolapo M. Oyebola 1,3 1生物医学基因组研究中心(Cegrib)基因组研究中心(Cegrib),基础和应用科学学院,山上高级大学,山顶大学,山上12号,Lagos-bibadan Expressway,Nierveway,Niger-bibos-top University。2寄生虫学和生物信息学部门,尼日利亚拉各斯分校科学系动物学系。3尼日利亚尼日利亚医学研究所,尼日利亚。4尼日利亚拉各斯基础医学学院生物化学系基础医学系。5个遗传学,基因组学和生物信息学系,国家生物技术研发局,尼日利亚阿布贾。5个遗传学,基因组学和生物信息学系,国家生物技术研发局,尼日利亚阿布贾。
利用公众支持从大量数据集中提取信息已成为准确标记相机陷阱 (CT) 图像中野生动物数据的一种流行方法。然而,对志愿者工作不断增长的需求延长了数据收集与我们得出生态推断或执行数据驱动的保护行动的能力之间的时间间隔。人工智能 (AI) 方法目前在物种检测(即图像中是否包含动物)和标记常见物种方面非常有效;然而,它对图像中很少捕捉到的物种和视觉上彼此高度相似的物种表现不佳。为了充分利用人类和人工智能分类方法的最佳优势,我们开发了一个集成的 CT 数据管道,其中人工智能提供标记图像的初始传递,但由人类监督和验证(即“人在环”方法)。为了评估分类准确度的提高,我们将人工智能和 HITL 协议生成的物种标签的精度与野生动物专家注释的“黄金标准”(GS)数据集进行比较。人工智能方法的准确性取决于物种,并与训练图像的数量呈正相关。 HITL 的共同努力使 73% 的数据集的错误率低于 10%,并降低了另外 23% 的错误率。对于两个外观相似的物种,人类输入的错误率高于人工智能。虽然与仅使用人工智能相比,将人类纳入循环会增加分类时间,但准确率的提高表明这种方法对于大批量 CT 调查非常有价值。