数据重播是图像的成功增量学习技术。它通过保留原始或合成的先前数据的储存库来防止灾难性的遗忘,以确保模型在适应新颖概念的同时保留过去的知识。但是,它在视频域中的应用是基本的,因为它只是存储了框架以进行动作识别。本文首次探讨了视频数据重播技术的递增动作分割,重点是动作时间段。我们提出了一个时间连贯的动作(TCA)模型,该模型代表使用生成模型而不是存储单个帧的动作。捕获时间连贯性的调节变量的集成使我们的模型了解随着时间的流逝的作用进化。因此,TCA为重播产生的动作段是多种多样的,并且在时间上是连贯的。在早餐数据集上的10任任务增量设置中,与基准相比,我们的AP可以显着提高准确性高达22%。
对于医学图像分割,想象一下如果一个模型仅使用源域中的 MRI 图像进行训练,那么它在目标域中直接分割 CT 图像的性能如何?这种设置,即具有临床潜力的通用跨模态分割,比其他相关设置(例如域自适应)更具挑战性。为了实现这一目标,我们在本文中提出了一种新颖的双重规范化模型,该模型在通用分割过程中利用增强的源相似和源不相似图像。具体而言,给定一个源域,旨在模拟看不见的目标域中可能的外观变化,我们首先利用非线性变换来增强源相似和源不相似图像。然后,为了充分利用这两种类型的增强,我们提出的基于双重规范化的模型采用共享主干但独立的批量规范化层进行单独规范化。随后,我们提出了一种基于风格的选择方案,在测试阶段自动选择合适的路径。在三个公开数据集(即 BraTS、跨模态心脏和腹部多器官数据集)上进行的大量实验表明,我们的方法优于其他最先进的领域泛化方法。代码可在 https://github.com/zzzqzhou/Dual-Normalization 获得。
本文介绍了一种新颖的方法,可以使用极端点,即每个对象的最上方,最左侧,最左侧,bottommost和最右点进行学习。这些要点在现代边界框注释过程中很容易获得,同时为预分段提供了强大的线索,因此可以使用盒子监督的方法以相同的注释成本来提高性能。我们的工作将极端点视为真实实例掩盖的一部分,并传播它们以识别潜在的前面和背景点,它们全部用于训练伪标签生成器。然后,发电机给出的伪标签又用于监督我们的最终模型。在三个公共基准测试中,我们的方法大大优于现有的盒子监督方法,以完全监督的对应物进一步缩小了差距。尤其是,当目标对象分为多个部分时,我们的模型会生成高质量的掩码,而以前的盒子监督方法通常会失败。
关于OLA电动移动性Ola Electric Mobility Limited是印度领先的电动汽车(EV)制造商,专门研究电动汽车及其组件(包括电池电池)技术和制造的垂直整合。操作以Ola FutureFactory为中心,在该操作中,电动电动汽车和关键组件(例如电池组,电动机和车辆框架)的生产。Ola的研发工作涵盖了印度,英国和美国,重点是电动汽车产品和核心组件的创新。Ola还在泰米尔纳德邦(Tamil Nadu)开发了一个广泛的EV HUB,其中包括Ola FutureFactory和即将推出的Ola Gigafactory。该枢纽由OLA位于班加罗尔的电池创新中心(BIC)支持,该中心致力于推进电池和电池技术。Ola保持了一个直接到客户的分销网络,在印度各地拥有750多个体验中心,以及强大的在线业务,使Ola Electric成为该国最大的公司拥有的汽车体验中心网络。
扩散模型代表文本到图像生成中的新范式。除了从文本提示中生成高质量的图像之外,诸如稳定扩散之类的模型已成功扩展到了共同生成的分段伪遮罩。但是,当前的敏感主要依赖于提取与用于图像合成的及时单词相关的关注。这种方法限制了从文本提示中未包含的单词代币中得出的分割掩码的产生。在这项工作中,我们介绍了开放式摄影注意力图(OVAM) - 用于文本到图像扩散模型的无训练方法,可为任何单词生成注意力图。此外,我们提出了一个基于OVAM的轻巧优化过程,用于查找具有单个注释的对象类的准确注意图。
摘要:家禽业在全球农业中起关键作用,家禽是蛋白质的主要来源,并为经济增长做出了重大贡献。但是,该行业面临着与重复性且苛刻的劳动密集型任务相关的挑战。自动化已成为提高运营效率并提高工作条件的关键解决方案。具体来说,机器人的操纵和对象的处理在工厂中变得无处不在。但是,存在挑战以预先识别和引导机器人处理一堆具有相似纹理和颜色的物体。本文着重于开发旨在自动化鸡的机器人解决方案的视觉系统,该机器人解决过程是一种基本的,但在家禽加工中是一种基本但身体上剧烈的活动。为了解决通用实例分割模型在识别重叠对象中的限制,开发了一种具有成本效益的双重活性激光扫描系统来生成对象上的精确深度数据。将经过良好的深度数据生成与RGB图像集成在一起,并将其发送到实例分割模型以进行单个鸡检测和识别。这种增强的方法显着改善了该模型在处理涉及重叠鸡的复杂场景中的性能。具体而言,RGB-D数据的集成将模型的平均平均精度(MAP)检测准确性提高了4.9%,并显着改善了中心偏移 - 本研究中引入的定制度量标准,以量化地面真相蒙版中心与预测的面具中心之间的距离。精确的中心检测对于开发未来的机器人控制解决方案至关重要,因为它可以确保在鸡肉重定过程中准确抓住。中心偏移量从22.09像素(7.30 mm)降低到8.09像素(2.65 mm),证明了该方法在缓解闭塞挑战和增强视觉系统的可靠性方面的有效性。
结合了标准和深度可分离的扩张卷积,降低了复杂性,同时保持了高度的准确性。它有四种配置,从强大的194万参数Twinlitenet +大到超轻量级34K参数Twinlitenet + Nano。值得注意的是,TwinliteNet +大的达到了92.9%的MIOU(平均交叉路口),用于驱动面积分割,而车道分割的34.2%IOU(与联合的交集)为34.2%。 这些结果实现了能力的性能,超过了当前的最新模型,而仅需少11倍的浮点操作(FLOP)才能计算。 在各种嵌入式设备上进行了严格评估,TwinliteNet +表现出了有希望的LASCENCE和功率效率,从而强调了其对现实世界自动驾驶汽车应用的潜力。 该代码可在https://github.com/chequanghuy/twinlitenetplus上找到。达到了92.9%的MIOU(平均交叉路口),用于驱动面积分割,而车道分割的34.2%IOU(与联合的交集)为34.2%。这些结果实现了能力的性能,超过了当前的最新模型,而仅需少11倍的浮点操作(FLOP)才能计算。在各种嵌入式设备上进行了严格评估,TwinliteNet +表现出了有希望的LASCENCE和功率效率,从而强调了其对现实世界自动驾驶汽车应用的潜力。该代码可在https://github.com/chequanghuy/twinlitenetplus上找到。
语义细分是执行场景理解的有效方法。最近,3D鸟视图(BEV)空间中的细分已被驱动策略直接使用。但是,在商用车中使用的环绕式鱼眼摄像机的BEV细分工作有限。由于此任务没有现实世界的公共数据集,并且现有的合成数据集由于遮挡而无法处理Amodal区域,因此我们使用Cognata Simulator创建一个合成数据集,其中包括各种道路类型,天气和照明条件。我们将BEV细分概括为使用任何凸轮模型;这对于混合不同的相机很有用。我们通过在Fisheye图像上应用圆柱整流并使用基于标准LSS的BEV分割模型来实现基线。我们证明,我们可以在没有不明显的情况下实现更好的性能,这具有增加的运行时效应,这是由于预处理,视野和重新采样的伪像而导致的。此外,我们引入了一种可学习的bev池层策略,对鱼眼摄像机更有效。我们以遮挡推理模块来探讨该模型,这对于估计BEV空间至关重要。fisheyebevseg的定性 - 在视频中展示了https://youtu.be/hftpwmabgs0。
摘要:通用的很少的语义分割(GFSS)目标在学习一组基本类别的分割后,使用一些带注释的示例将新颖对象类别进行分割。典型的GFSS培训涉及两个阶段 - 基类学习,然后是新颖的课程和学习。尽管现有方法表现出了希望,但在新颖的班级数量显着时,它们通常会挣扎。大多数当前方法都冻结了编码器主链以保持基类精度;但是,冻结编码器骨架可以严重阻碍新班级中新型信息的同化。为了应对这一挑战,我们建议在GFSS中使用增量学习策略来学习编码器骨干和新型类原型。受到低级适应技术(LORA)最近成功的启发,我们通过新颖的重量分解方法向GFSS编码器主链引入了Increthorth学习。我们新提出的等级自适应权重合并策略对在编码器主链各个层中吸收的新颖性不同。在我们的工作中,我们还将增量学习策略介绍给新型类别的类原型学习。我们在Pascal-5 I和Coco-20 I数据库上进行了广泛的实验,展示了增量学习的有效性,尤其是当新颖的类人数超过基础类别时。使用我们提出的基于权重分解的增量学习(WFIL)方法,以概括性的语义分段建立了一组新的最先进的精度值。
摘要:数据增强对于像素的注释任务(如语义分割)至关重要,在语义分段中,标签会重大努力和大量劳动。传统方法,涉及简单的转换,例如旋转和翻转,创建新图像,但通常沿关键语义维度缺乏多样性,并且无法改变高级语义属性。为了解决这个问题,生成模型已成为通过生成合成图像来增强数据的有效解决方案。可控的生成模型通过使用提示和来自原始图像的视觉引用为语义分割任务提供数据增强方法。但是,这些模型在生成合成图像时面临挑战,这些图像由于难以创建有效的提示和视觉参考而准确地反映原始图像的内容和结构。在这项工作中,我们引入了使用可控差异模型进行语义分割的有效数据增强管道。我们提出的方法包括使用类别附加和视觉事先融合的类别添加的有效及时生成,以增强对真实图像中标记的类的关注,从而使管道能够生成精确数量的增强图像,同时保留分割标记的类的结构。此外,我们在合成和原始图像合并时实现了平衡算法的类平衡算法。对Pascal VOC数据集的评估,我们的管道证明了其在生成语义分割的高质量合成图像方面的有效性。我们的代码可在此HTTPS URL上找到。