摘要 在图像数量庞大、人们无法快速检索所需信息的当今世界,我们迫切需要一种更加简便、人性化的图像理解方式,图像字幕应运而生。图像字幕,顾名思义,就是通过分析理解图像信息,生成特定图像的自然语言描述,近年来被广泛应用于图文交叉研究、婴幼儿教育、弱势群体帮扶以及产业界的青睐,产生了许多优秀的研究成果。目前对图像字幕的评价基本基于BLUE、CIDEr等客观评价指标,容易导致生成的字幕无法接近人类语言表达,而GAN思想的引入使得我们能够采用对抗训练这种新的方法来对生成的字幕进行评价,评价模块更加自然、全面。考虑到对图像逼真度的要求,本课题提出了一种基于GAN的图像描述。引入Attention机制来提高图像保真度,使得生成的字幕更加准确,更接近人类的语言表达。
如今,电子竞技现象无处不在。国际锦标赛和参赛选手让数百万观众激动不已,他们观看电子竞技运动员和他们的团队努力提高水平并超越彼此。为了达到必要的认知和身体最佳状态,并抵消因在电脑或游戏机前训练数小时而导致的一般健康问题,电子竞技运动员需要最佳的认知、身体和心理训练。然而,在电子竞技特定的健康管理方面存在差距,包括预防健康问题和训练这些功能。为了对这一主题做出贡献,我们在本篇小评论中介绍了基于跨学科研究结果的可能途径,为认知、身体和精神更健康、更强大的电子竞技运动员提供整体训练方法。我们讨论了运动游戏作为一种激励和有前途的电子竞技运动员补充训练方法,它同时在有吸引力的游戏环境中结合了身体和认知刺激和挑战。此外,我们提出运动游戏是创新的全身电子竞技锦标赛革命。总而言之,运动游戏为(物理)电子竞技带来了新的方法,这反过来又在不断发展的电子竞技研究和开发社区中引发了新的话题。
1 北京科技大学人工智能研究所脑机智能与智能健康研究所,北京,中国,2 燕山大学信息科学与工程学院,河北省计算机虚拟技术与系统集成重点实验室,秦皇岛,中国,3 燕山大学理学院统计学系,秦皇岛,中国,4 河北科技师范学院数学与信息科学与技术学院计算机科学与技术系,秦皇岛,中国,5 承德医学院生物医学工程系,承德,中国,6 马来西亚博特拉大学工程学院计算机与通信系统工程系,沙登,马来西亚,
UAV图像采集和深度学习技术已被广泛用于水文监测中,以满足数据量需求不断提高和质量的增加。但是,手动参数培训需要反复试验成本(T&E),现有的自动培训适应简单的数据集和网络结构,这在非结构化环境中是低实用性的,例如干山谷环境(DTV)。因此,这项研究合并了转移学习(MTPI,最大转移电位指数法)和RL(MTSA强化学习,多汤普森采样算法)在数据集自动启动和网络中自动培训,以降低人类的经验和T&E。首先,为了最大程度地提高迭代速度并最大程度地减少数据集消耗,使用改进的MTPI方法得出了最佳的迭代条件(MTPI条件),这表明随后的迭代仅需要2.30%的数据集和6.31%的时间成本。然后,在MTPI条件(MTSA-MTPI)中提高了MTSA至自动提高数据集,结果显示准确性(人为误差)提高了16.0%,标准误差降低了20.9%(T&E成本)。最后,MTPI-MTSA用于四个自动训练的网络(例如FCN,SEG-NET,U-NET和SEG-RES-NET 50),并表明最佳的SEG-RES-NET 50获得了95.2%WPA(准确性)和90.9%的WIOU。本研究为复杂的植被信息收集提供了一种有效的自动培训方法,该方法提供了减少深度学习的手动干预的参考。
摘要:脑肿瘤图像的人工标注成本高且严重依赖于医生的专业知识,这限制了临床实践中自动化和精准脑肿瘤分割的实现。同时,未标记图像随处可见但尚未得到很好的利用。本文提出了一种提高标记图像分割效率的新脑肿瘤分割方法,称为LETCP。具体而言,它提出了一种对比预训练策略,利用未标记数据进行模型预训练。该方法中的分割模型是基于自注意力转换器构建的。在三个公共数据集上对该方法进行了广泛的评估。通过使用未标记数据进行预训练,然后使用少量标记数据进行微调,该方法实现了超越其他半监督方法的分割性能,并且与监督方法相比表现出了竞争力。
近年来,文本图像联合预训练技术在各种任务中显示出令人鼓舞的结果。然而,在光学特征识别(OCR)任务中,将文本实例与图像中的相应文本区域对齐是一个挑战,因为它需要在文本和OCR文本之间有效地对齐(将图像中的文本称为ocr-文本以与自然语言中的文本区分开来),而不是对整体图像内容的全面理解。在本文中,我们提出了一种新的预训练方法,称为o cr-text d估计化m odeling(ODM),该方法根据文本提示将图像中的文本样式传输到统一样式中。使用ODM,我们在文本和OCR文本之间实现了更好的对齐方式,并启用预训练的模型以适应场景文本的复杂和多样化的样式。此外,我们为ODM设计了一种新的标签生成方法,并将其与我们提出的文本控制器模块相结合,以应对OCR任务中注释成本的挑战,并以大量未标记的数据参与预培训。在多个Pub-LIC数据集上进行的广泛实验表明,我们的方法显着地证明了性能,并且在场景文本检测和发现任务中的当前预训练方法优于当前的预训练方法。代码在ODM上可用。
抽象目的:我们比较了三种力量训练(ST)方法(ST)方法(传统,超集和三型)对血压(BP)和心率变化(HRV)的影响,以确定最大程度地提高心血管益处的最佳方法。患者和方法:9名男性参加,结束了三个ST会议,其中包括3套8-10次重复,其单一重复最大值(1RM)的70%,并有90秒的休息时间间隔。BP和HRV。结果:调查结果表明,在传统方法之后,收缩的血液预先(SBP)最多降低了60分钟,而在会议后30分钟和40分钟时,超集和三组方法均显示出降低(p≤0.05)。舒张压(DBP)显示在超集和三盘方法后的10和30分钟下降,平均血压(MBP)在两种方法后的10、30和40分钟时经历了降低(P≤0.05)。在所有ST方法中都观察到一致的同情率
机器学习的最新进展表明,与随机初始化的模型相比,多模式的预训练可以改善自动语音识别(ASR)性能,即使模型在Uni-Modal-Modal任务上进行了微调。ASR任务的现有多模式预训练方法主要集中在单级预训练上,其中单个无监督任务用于预训练,然后在下游任务上进行微调。在这项工作中,我们介绍了一种新颖的方法,该方法将多模式和多任务的无监督预训练与基于翻译的监督中期训练方法相结合。我们从经验上证明,这种多阶段方法会导致相对单词错误率(WER)在LibrisPeech和Superb上的基线比基线高达38.45%的改善。此外,我们分享了选择预训练方法和数据集的几个重要发现。
本文研究了一种联合估计基于能量的模型和基于流的模型的训练方法,其中两个模型基于共享的对抗值函数进行迭代更新。该联合训练方法具有以下特点:(1)基于能量的模型的更新基于噪声对比估计,流模型作为强噪声分布。(2)流模型的更新近似地最小化了流模型与数据分布之间的 Jensen-Shannon 散度。(3)与生成对抗网络(GAN)估计由生成器模型定义的隐式概率分布不同,我们的方法估计数据上的两个显式概率分布。使用所提出的方法,我们证明了流模型的综合质量的显著改进,并展示了通过学习到的基于能量的模型进行无监督特征学习的有效性。此外,所提出的训练方法可以轻松适应半监督学习。我们取得了与最先进的半监督学习方法相媲美的成果。