摘要:DeepFake已成为一项新兴技术,近年来影响网络安全的非法应用。大多数DeepFake检测器都利用基于CNN的模型(例如Xception Network)来区分真实或假媒体;但是,它们在交叉数据集中的表现并不理想,因为它们在当前阶段遭受过度的苦难。因此,本文提出了一种空间一致性学习方法,以三个方面缓解此问题。首先,我们将数据增强方法的选择提高到5,这比我们以前的研究的数据增强方法还多。具体来说,我们捕获了一个视频的几个相等的视频帧,并随机选择了五个不同的数据增强,以获取不同的数据视图以丰富输入品种。其次,我们选择了Swin Transformer作为特征提取器,而不是基于CNN的主链,这意味着我们的方法并未将其用于下游任务,并且可以使用端到端的SWIN变压器对这些数据进行编码,旨在了解不同图像补丁之间的相关性。最后,这与我们的研究中的一致性学习结合在一起,一致性学习能够比监督分类确定更多的数据关系。我们通过计算其余弦距离并应用传统的跨膜损失来调节这种分类损失,从而探索了视频框架特征的一致性。广泛的数据库和跨数据库实验表明,弹药效果可能会在某些开源的深层数据集中产生相对良好的结果,包括FaceForensics ++,DFDC,Celeb-DF和FaceShifter。通过将我们的模型与多种基准模型进行比较,我们的方法在检测深冰媒体时表现出相对强大的鲁棒性。
方法中,我们提出了一个神经网络模型WCE_Detection,以对23种消化道病变图像的准确检测和分类。首先,由于多酸性病变图像表现出各种形状和鳞片,因此在对象检测网络中采用了多探针头策略,以提高模型的多尺度病变检测的鲁棒性。此外,还引入了双向特征金字塔网络(BIFPN),通过添加跳过连接有效地融合了浅的语义特征,从而大大降低了检测错误率。在上述基础上,我们利用SWIN变压器具有其独特的自我发言机制和层次结构,并结合BIFPN特征融合技术来增强多酸性病变图像的特征表示。
·提议的随机差异量化(SDQ)[ICML 2022],一种有效的和有效的混合精确定量量化技术优于·提出了有效的变异感知视觉变压器(VIT)量化框架[TMLR]。这是分析和定位VIT量化变化的第一项工作。我们对VIT的变化的解决方案导致在不同的VIT模型(DEIT,SWIN,SRET)跨Imagenet-1k数据集上的最新精度。·通过核心选择[TMLR]提出一个新的角度,以提高量化感知训练的效果。我们的方法可以在ImageNet-1k数据集上获得4位RESNET-18的68.39%,仅10%子集。
摘要 - 占对象检测是在各种高安全地点执行的关键任务,包括机场,火车施工,地铁和港口。每小时检查数千张X射线图像的持续和乏味的工作可能会在精神上征税。因此,深层神经网络(DNN)可用于自动化X射线图像分析过程,提高效率并减轻安全人员的检查负担。通常在相关文学中使用的神经体系结构是卷积神经网络(CNN),而视觉变压器(VIT)很少使用。为了解决这一差距,本文对X射线图像中非法项目检测的相关VIT体系结构进行了全面评估。这项研究利用了变压器和杂化主链,例如Swin和Nextvit,以及探测器,例如Dino和RT-Detr。结果证明了Dino Transformer探测器在低数据策略,令人印象深刻的Yolov8实时性能以及混合NextVit主链的有效性中的出色准确性。索引术语 - 对象检测,X射线,视觉变压器,深神经网络
摘要。便携式和负担得起的视网膜成像设备的快速可访问性使早期的差异诊断更加容易。例如,在偏远村庄中很容易获得颜色底面的成像,这可以帮助鉴定与年龄相关的黄斑变性(AMD),青光眼或病理肌病(PM)等疾病。另一方面,国际空间站的宇航员利用该摄像机来识别空间相关的神经 - 眼综合征(SANS)。更精确的疾病鉴定。此外,由于带宽限制,必须压缩成像数据以在这两个地方之间传输。在整个过程中提出了不同的超分辨率算法。Furthermore,furthermore,witheadeDeventOfFlearning,fiffiendhas AdvancedSomuchthat×2 and×4 CompressemagescanbedeccanbedEcompressedtecompressiontotheir原始形式的原始形式而不会丢失空间信息。在本文中,我们介绍了一种名为Swin-fsr的新颖模型,该模型利用Swin Transformer具有空间和深度的AviseForfundUsimagesumagesuper-resolution.ourarchitectureachieves peaksignal-to-Noise-to-Noise-ratio(psnr)47.89、49.00和45.32 iChallenge-amd,iChallenge-pm,andG1020。在介于Additionally上,对SANS的私人持有数据集的有效性,并与以前的体系结构取得了可比的结果。
解码器将皮质图(ECOG)信号从皮质转换为可解释的语音参数和一种新型的可区分语音合成器,将语音参数映射到频谱图。我们开发了一个由语音编码器和相同的语音合成器组成的伴侣音频到Audio自动编码器,以生成参考语音参数,以促进ECOG解码器培训。该框架具有自然听起来的语音,并且在48名参与者的队列中高度可重现。在ECOG解码器的三个神经网络架构中,3D Resnet模型在预测原始语音频谱图(PCC = 0.796)的情况下预测原始语音频谱图时具有最佳的解码性能(PCC = 0.804)。我们的实验结果表明,即使仅限于因果操作,我们的模型也可以以高相关性来解码语音,这对于通过实时神经假体采用是必不可少的。我们成功地解码了左或右半球覆盖范围的参与者中的语音,这可能导致左半球损害导致语音缺陷的患者的言语假体。此外,我们使用遮挡分析来识别有助于跨模型语音解码的皮质区域。最后,我们为我们的两阶段培训管道提供开源代码以及协会的预处理和可视化工具,以实现可重现的研究并推动跨语音科学和假体社区的研究。
摘要。尖峰摄像头具有高的时间分辨率,低功能和高动态范围,可应对运动模糊等高速成像挑战。它独立地捕获每个像素的光子,使二进制尖峰流呈富含时间信息,但对图像重建充满挑战。当前的算法,无论是传统的还是基于深度学习的算法,在利用丰富的时间细节以及重建的重建信息的细节的恢复方面仍然需要改善。为了克服这一点,我们介绍了Swin SpikeFormer(Swinsf),这是一种从Spike流进行动态场景重建的新型模型。swinsf由尖峰特征提取,时空特征表和最终重建模块组成。它结合了移动的窗口自我注意力和提出的暂时尖峰注意,确保了综合特征提取,可封装空间和温度动力学,从而导致尖峰流的更强大,更准确的重建。此外,我们为Spike Image重建构建了一个新的合成数据集,该数据集与最新的Spike相机的分辨率相匹配,从而确保了其对Spike Camera Imaging中最新开发的相关性和适用性。实验结果表明,所提出的网络SWINSF设置了一个新的基准测试,在一系列数据集中实现了最新的性能,包括各种分辨率的现实世界和综合数据。我们的代码和建议的数据集可在https://github.com/bupt-ai-cz/swinsf上找到。
水下图像细分对于诸如水下探索,海洋环境监测和资源开发等任务至关重要。尽管如此,鉴于水下环境的复杂性和可变性,改善模型准确性仍然是水下图像分割任务中的关键挑战。为了解决这些问题,本研究提出了基于标准Segformer模型的水下图像的高性能语义分割方法。首先,Segformer中的混合变压器主链被Swin Transformer替换,以增强特征提取并促进对全局上下文信息的有效获取。接下来,在骨干的下采样阶段和解码器中引入了有效的多尺度注意(EMA)机制,以更好地捕获多尺度特征,从而进一步提高了细分精度。此外,将特征金字塔网络(FPN)结构合并到解码器中,以在多个分辨率下组合特征图,从而使模型可以有效地集成上下文信息,从而在复杂的水下环境中增强了鲁棒性。对SUIM水下图像数据集进行测试表明,拟议的模型在多个指标上达到了高性能:联合(MIOU)的平均相交(MIOU)为77.00%,平均召回(MRECALL)为85.04%,平均精度(Mprecision)为89.03%,为89.03%,F1Score(MF1Score(Mf1score)为86.63%)。与标准Segformer相比,MIOU的提高3.73%,MRECALL为1.98%,Mprecision的3.38%和MF1Score的2.44%的提高,参数增加了989万。结果表明,所提出的方法通过最小的其他计算实现了出色的分割精度,从而显示了水下图像分割中的高性能。
摘要 - 在分析无人机空中图像时,对象检测任务特别具有挑战性,尤其是在存在复杂的地形结构,目标大小的极端差异,次优射击角度和不同的照明条件下,所有这些都加剧了识别困难。近年来,基于变压器体系结构的DITR模型消除了传统的后处理步骤,例如NMS(非最大抑制作用),从而简化了对象检测过程并提高了检测准确性,这在学术界引起了广泛的关注。但是,DETR具有诸如慢训练收敛,查询优化难度和高计算成本等局限性,这阻碍了其在实际领域的应用。要解决这些问题,本文提出了一个称为Optideter的新对象检测模型。该模型首先采用了更有效的混合编码器来替换传统的跨前期编码器。新的编码器通过内部和跨尺度特征交互和融合逻辑显着增强了特征处理能力。其次,引入了一个意识选择机制的IOU(与联合的交集)。这种机制在训练阶段增加了约束,以为解码器提供更高质量的初始对象查询,从而显着改善了解码性能。此外,Optidetr模型还将SW-Block集成到DETR DE-DE-DE-DE-DE-DE-DE-DE-编码器中,利用Swin Transformer在全局上下文建模和功能表示中的优势,以进一步提高对象检测的性能和效率。为了解决小物体检测的问题,本研究对SAHI算法进行了创新的数据进行数据增强。通过一系列实验,与当前主流对象检测模型相比,它在地图(平均平均精度)度量中实现了超过两个百分点的性能。此外,计算和记忆消耗的降低显着降低,证明了Optideter在对象检测任务中的出色性能和实践价值。
摘要。目的:本研究探讨颅内电极捕获的神经信号的语音解码。大多数先前的研究只能使用 2D 网格上的电极(即脑皮层电图或 ECoG 阵列)和来自单个患者的数据。我们的目标是设计一个深度学习模型架构,可以同时适应表面(ECoG)和深度(立体定向 EEG 或 sEEG)电极。该架构应允许使用来自多个参与者的数据进行训练,这些参与者的电极位置变化很大,并且训练后的模型应该在训练期间未见过的参与者身上表现良好。方法:我们提出了一种名为 SwinTW 的新型基于变压器的模型架构,该架构可以与任意定位的电极一起工作,通过利用它们在皮层上的 3D 位置而不是它们在 2D 网格上的位置。我们使用来自单个参与者的数据训练特定于主题的模型,以及利用来自多个参与者的数据的多患者模型。主要结果:仅使用低密度 8x8 ECoG 数据的受试者特定模型在 N=43 名参与者中实现了高解码皮尔逊相关系数与地面实况频谱图 (PCC=0.817),优于我们之前的卷积 ResNet 模型和 3D Swin Transformer 模型。在每个参与者 (N=39) 中加入额外的条带、深度和网格电极可带来进一步的改进 (PCC=0.838)。对于只有 sEEG 电极的参与者 (N=9),受试者特定模型仍然具有可比的性能,平均 PCC=0.798。多受试者模型在看不见的参与者身上实现了高性能,在留一交叉验证中平均 PCC=0.765。意义:提出的 SwinTW 解码器使未来的语音神经假体能够利用任何对特定参与者来说临床上最佳或可行的电极位置,包括仅使用更常规的深度电极