深度学习已被广泛应用于各个研究领域,并在许多应用中发挥了至关重要的作用。通过手写角色识别,图像分类和检索,对象检测和细分,动作识别,视频分析和3D场景理解的实现,已经清楚地证明了深度学习的成功和成就。在过去的十年中,研究界见证了深度学习的迅速发展,许多高级体系结构和学习算法已经开发并应用于解决复杂和现实世界中的问题。本期特刊旨在促进深度学习领域,重点是用于图像处理和计算机视觉的深度学习技术。研究领域可能包括(但不限于)以下主题: - 图像识别; - 对象检测; - 图像和对象分割; - 行动检测和认可; - 视频分析; -3D视觉(场景理解,点云分析); - 图像和视频综合; - 图像处理/基于计算机视觉的
图像切解分析检测数字图像中隐藏的数据,对于增强数字安全性至关重要。传统的切解方法通常依赖于大型预先标记的图像数据集,这些数据集很困难且昂贵。为了解决这个问题,本文介绍了一种创新的方法,该方法结合了积极的学习和非政策深度强化学习(DRL),以使用最小标记的数据来改善图像ste缩。主动学习允许模型智能选择应注释哪些未标记的图像,从而减少有效培训所需的标记数据量。传统的主动学习策略通常使用限制灵活性且不能很好地适应动态环境的静态选择方法。为了克服这一点,我们的方法结合了用于战略数据选择的非政策DRL。DRL中的非政策可以提高样本效率,并显着提高学习成果。我们还使用差分进化(DE)算法来微调模型的超参数,从而降低了其对不同设置的敏感性并确保更稳定的结果。我们对广泛的BossBase 1.01和BOWS-2数据集进行了测试,证明了该方法区分未更改和隐形图像的强大能力,在BossBase 1.01和BOSS-2数据集对BossBase 1.01和91.834%的平均F量表达到93.152%。总而言之,这项研究通过采用先进的图像切解分析来检测隐藏数据,从而增强了数字安全性,从而通过最小的标记数据显着提高了检测准确性。
摘要 - 这篇文章介绍了一种新颖的图像到语音生成方法,旨在使用深度学习技术将图像转换为文本字幕以及尼泊尔语言的口头描述。通过利用计算机视觉和自然语言处理,该系统分析图像,外观功能,生成人类可读字幕并产生可理解的语音输出。实验利用了图像字幕生成的最先进的变压器架构,并由Resnet和ExcilityNet作为特征提取器补充。BLEU评分用作生成字幕的评估度量。BLEU-1,BLEU-2,BLEU-3和BLEU-4 N-gram所获得的BLEU得分分别为0.4852、0.2952、0.181和0.113。预估计的Hifigan(Vocoder)和Tacotorn2用于文本进行语音合成。所提出的方法有助于尼泊尔语言AI应用的未置换域,旨在提高对尼泊尔语人群的可访问性和技术包容性。
运动图像(MI)允许设计自定进度的大脑 - 计算机界面(BCIS),该界面有可能提供直观且连续的相互作用。但是,具有三个以上命令的非侵入性MI基于BCI的实施仍然是一项困难的任务。首先,解码不同动作的MIS数量受到在相应来源之间保持足够间距的限制,因为近区域的脑电图(EEG)活性可能会加起来。第二,脑电图产生了大脑活动的相当嘈杂的图像,这会导致分类性能差。在这里,我们提出了一种解决方案,通过使用合并的MIS(即同时涉及2个或更多身体部位的错误)来解决可识别的运动活动的局限性。,我们提出了公共空间模式(CSP)算法的两种新的多标记用途,以优化信噪比,即MC2CMI和MC2SMI方法。,我们在8级的脑电图实验中记录了来自七个健康受试者的脑电图信号,包括剩余条件和所有可能的组合使用左手,右手和脚。所提出的多标记方法将原始的8级问题转换为一组三个二进制问题,以促进使用CSP算法。在MC2CMI方法的情况下,每个二进制问题组在一个类别中共同参与了三个选定的身体部位之一,而其余的不参与相同身体部位的MIS则在第二类中分组在一起。以这种方式,对于每个二进制问题,CSP算法都会产生特征,以确定特定的身体部分是否从事任务。最后,通过应用8级线性判别分析,将三组功能合并在一起,以预测用户意图。MC2SMI方法非常相似,唯一的区别是,在训练阶段考虑的任何组合MIS,这大大加速了校准时间。对于所有受试者,MC2CMI和MC2SMI方法的精度都比经典的配对(PW)和One-Vs.-All(OVA)方法更高。我们的结果表明,当正确调制大脑活动时,多标签方法代表了一个非常有趣的解决方案,可以增加命令数量,从而提供更好的相互作用。
摘要 - 基于运动图像(MI)的脑部计算机界面(BCI)显示出有希望的运动恢复结果,术中意识检测或辅助技术控制。但是,由于脑电图(EEG)信号的高度可变性,它们主要是每次使用日期所需的冗长而乏味的校准时间,并且缺乏所有用户的可靠性,因此它们遭受了几个限制。可以使用转移学习算法在某种程度上解决此类问题。但是,到目前为止,此类算法的性能已经非常可变,何时可以安全地使用它们。因此,在本文中,我们研究了MI-BCI数据库(30个用户)上各种最先进的Riemannian转移学习算法的性能:1)受到监督和不受监督的转移学习; 2)对于目标域的各种可用培训脑电图数据; 3)会议内或会议间的转移; 4)对于Mi-BCI表演良好且较不愉快的用户。从此类实验中,我们得出了有关何时使用哪种算法的准则。重新介绍目标数据后,该目标集的几个样本被考虑在内。即使对于课内转移学习也是如此。同样,重新介入对于在会话之间难以产生稳定的运动图像的受试者特别有用。
典型的图像处理任务是识别两个相邻区域之间边界(强度变化)。从经典上讲,边缘检测方法依赖于不同类型的滤膜对图像梯度的计算。因此,所有经典算法都需要至少O(2 n)的计算复杂性,因为每个像素都需要处理(Yao,Wang,Liao,Chen和Suter,2017)。已经提出了一种量子算法,该算法应该与现有边缘提取算法相比提供指数加速(Zhang,lu和gao。2015)。但是,该算法包括一个复制操作和一个量子黑框,用于同时计算所有像素的梯度。对于这两个步骤,目前都没有有效的实现。提出了一种高效的量子算法,称为量子Hadamard Edge检测,以找到边界(Yao,Wang,
焊接过程产生的图像噪声(例如弧光,飞溅和烟雾)给基于激光视觉传感器的焊接机器人带来了巨大的挑战,可以定位焊接接缝并准确地进行自动焊接。当前,基于深度学习的方法超过了灵活性和鲁棒性的传统方法。但是,它们的重大计算成本导致与自动焊接的实时要求不匹配。在本文中,我们对卷积神经网络(CNN)和变压器的有效混合体系结构(称为动态挤压网络(DSNET))进行实时焊接接缝分段。更准确地说,开发了一个轻巧的分割框架,以充分利用变压器结构的优势,而无需显着增加计算开销。在这方面,旨在提高其功能多样性的高效编码器已被设计并导致了编码性能的大幅改进。此外,我们提出了一个插件轻巧的注意模块,该模块通过利用焊接接缝数据的统计信息并引入线性先验来产生更有效的注意力权重。使用NVIDIA GTX 1050TI对焊缝图像进行广泛的实验表明,与基线方法Transunet相比,我们的方法将参数的数量减少了54倍,将计算复杂性降低了34倍,并将推理速度提高33倍。dsnet可实现较高的准确性(78.01%IOU,87.64%骰子)和速度性能(100 fps),其模型复杂性和计算负担较低。该代码可在https://github.com/hackerschen/dsnet上找到。
摘要。高速原子力显微镜(HS-AFM)可实现具有特殊空间(X-Y平面中1 nm的生物结构的纳米级成像; z方向〜0.1 nm)和时间分辨率(每帧〜20 ms)。hs-afm在二维(2d)的前进中编码三维(3D)信息,其中结构的横向尺寸(x,y)与图像中的空间姿势相对应,而高度(z)信息则嵌入到像素强度中。这种独特的数据结构在分割和形态分析中提出了重大挑战,需要专门的计算方法。为了克服这些局限性,我们开发了“ AFMNANOQ”,这是一个由特征驱动的组合框架,用于分割HS-AFM数据的分割和形态测量。我们的方法独立于标记的培训数据,使数据稀缺性可靠,同时又是为未来深入学习应用程序提供高质量标记的数据集的强大工具。我们使用合成和实验性AFM/HS-AFM DATASET来验证AFMNANOQ,包括对α-蛋白素(αHl)的构象和动力学的半自动分析,一种β-桶孔形成孔(PFT),由葡萄球菌分泌的expaph-ylococcus a ylococcus a a paph-ylococcus a nurus。我们的方法通过深度学习模型实现竞争性能,同时保持各种HS-AFM数据集的卓越适应性。作为未来的观点,我们计划将其进一步开发或将其与深度学习模型相结合,以增强分割性能并从实验性AFM图像中重建3D结构。这将利用本研究中产生的构象文库,从而实现两种甲基化合物之间的交叉验证,并最终在AFM图像分析中弥合特征驱动和数据驱动的AP之间的差距。
摘要 - Kinesthetic Motor图像(KMI)是一项心理任务,如果正确执行,则在运动训练或康复中使用脑部计算机界面(BCI)可能非常相关。不幸的是,这项心理任务通常很复杂,并且可以导致其执行情况高度可变性,从而减少其潜在的好处。KMI任务如此困难的原因是因为没有标准化的方式来指导该主题在这项心理任务中。这项研究提出了一种创新的BCI,称为Grasp-It,以支持KMI任务的学习,并评估两种不同的学习方法:(i)第一个由实验者和渐进率指导的,基于渐进率的概念,(ii)第二个学习者是单独的,并且通过试验和错误进行了学习和练习。基于脑电图分析的发现和主观问卷调查验证了grasp-it bci的设计,并为KMI学习方式开辟了观点。索引项 - Kinesthetic Motor图像;大脑计算机界面; grasp-it;中风康复; BCI学习环境;人类计算机相互作用
合成图像产生的进展使评估其质量至关重要。虽然已经提出了几种大会来评估图像的渲染,但对于基于提示的文本形象(T2I)模型至关重要,这些模型基于提示,以考虑其他范围,例如生成的图像与提示的重要内容相匹配。此外,尽管生成的图像通常是由随机起点引起的,但通常不考虑该图像的影响。在本文中,我们提出了一个基于提示模板的新指标,以研究提示中规定的内容与相应生成的图像之间的对齐。它使我们能够更好地以指定对象的类型,它们的数字和颜色来表征对齐方式。我们对最近的几个T2I模型进行了一项研究。我们通过方法获得的另一个有趣的结果是,图像质量可能会大大变化,这取决于用作图像种子的噪声。我们还量化了提示中概念数量的影响,它们的顺序以及其(颜色)属性的影响。最后,我们的方法使我们能够识别出比其他种子比其他种子更好的种子,从而开辟了有关该研究不足的主题的新研究方向。