摘要 目前,由于眼动追踪技术的低侵入性及其与商用 iVR 头戴式显示器的集成,在沉浸式虚拟现实 (iVR) 学习环境中使用眼动追踪数据将成为最大化学习成果的有力工具。然而,在将数据处理技术推广到学习环境之前,应首先确定最合适的技术。在本研究中,提出了使用机器学习技术来达到此目的,评估它们对学习环境质量进行分类和预测用户学习表现的能力。为此,开发了一种模拟桥式起重机操作的 iVR 学习体验。通过这次体验,对 63 名学生在最佳学习条件和压力条件下的表现进行了评估。最终的数据集包括 25 个特征,主要是时间序列,数据集大小高达 50M 个数据点。结果表明,不同的分类器(KNN、SVM 和随机森林)在预测学习表现变化时提供了最高的准确率,而用户学习表现的准确率仍远未达到最佳水平,这为未来的研究开辟了一条新思路。本研究旨在为未来使用复杂的机器学习技术提高模型准确率奠定基础。
基于遥感数据的图像分类是自动制图研究的主要领域。随着城市发展的加快,迫切需要更新地理数据库。城市地区土地覆盖类型的自动制图是遥感领域最具挑战性的问题之一。传统的数据库更新费时费力,通常通过人工观察和目视解译进行,为了提高效率和准确性,数据收集和提取方面的新技术越来越必要。本文研究了一种基于正射影像和激光雷达数据(单独和组合)的基于对象的决策树分类。成功提取了四种土地覆盖类型,即森林、水体、空地以及建筑物。基于正射影像的分类准确率为 89.2%,基于激光雷达数据的分类准确率为 88.6%,获得了令人满意的结果。激光雷达数据和正射影像都显示出足够的能力来单独对一般土地覆盖类型进行分类。同时,正射影像和激光雷达数据的组合显示出显著的分类结果,准确率为 95.2%。整合数据的结果显示出非常高的一致性。与单独使用正射影像或激光雷达数据的过程相比,它降低了土地覆盖类型判别的复杂性。此外,还进行了另一种分类算法,支持向量机(SVM)分类。比较
摘要:脑肿瘤在儿童和老年人中最为常见。它是一种严重的癌症,由颅骨内无法控制的脑细胞生长引起。众所周知,肿瘤细胞由于其异质性而难以分类。卷积神经网络 (CNN) 是视觉学习和脑肿瘤识别中最广泛使用的机器学习算法。本研究提出了一种基于 CNN 的密集 EfcientNet,使用最小-最大规范化将 3260 张 T1 加权对比增强脑磁共振图像分为四类(神经胶质瘤、脑膜瘤、垂体和无肿瘤)。开发的网络是 EfcientNet 的变体,添加了密集层和 drop-out 层。同样,作者将数据增强与最小-最大规范化相结合,以增加肿瘤细胞的对比度。密集 CNN 模型的好处是它可以准确地对有限的图片数据库进行分类。因此,所提出的方法提供了出色的整体性能。实验结果表明,所提出的模型在训练期间的准确率为 99.97%,在测试期间的准确率为 98.78%。新设计的 EfficientNet CNN 架构具有较高的准确率和良好的 F1 分数,可以成为脑肿瘤诊断测试研究中有用的决策工具。
摘要:在航空电子设备中,飞行员使用头盔显示器 (HMD) 在护目镜上显示外部环境的同步视图和与飞机相关的重要参数。为了完美同步护目镜上的视图,必须同步外部环境的坐标以及飞行员头部运动的坐标。为了确定飞行员头部运动的坐标,称为头部跟踪的过程起着重要作用。头部跟踪可以使用不同的跟踪技术来执行,例如光学跟踪、磁跟踪或惯性跟踪。在本文中,六自由度 (6-DoF) 磁运动跟踪装置 (Polhemus Patriot TM ) 用于在模拟器床上实时获取飞行员头部运动的坐标。在跟踪器获取过程中,由于铁磁性引起的磁场干扰,数据可能会丢失。为此,我们采用自修复神经模型 (SHNM) 来预测缺失数据。用于恢复的数据有 5200 个头部运动的 6-DoF 样本。SHNM 可实现超过 85% 的准确率来预测三组不同的缺失数据。将所提模型预测数据的准确率与反向传播神经网络 (BPNN) 模型进行了比较,结果发现 SHNM 模型的准确率优于 BPNN 模型
摘要 腹腔镜胆囊切除术 (LC) 是胆结石患者的标准外科治疗方法,从有症状的胆结石到严重的胆囊炎。由于 LC 期间手术所见差异很大,客观评估手术难度非常重要。这对于进一步开发和在 LC 手术中使用未来的人工智能算法至关重要,因为它可以让外科医生之间进行更可靠的基准测试,并有助于手术室规划。在本研究中,训练了深度学习模型来评估手术第一阶段的难度水平。包括在 Meander 医疗中心录制的 93 个 LC 视频。使用改良的 Nassar 量表来注释胆囊难度(1-3 级)和粘连存在(1-3 级)。各种模型都针对不同的标签组合进行了训练;二元和多标签。在多标签测试集上,最佳模型对胆囊和粘连的分类准确率分别达到 66% 和 40%。最佳二元模型将胆囊难度分为 3 级和 1、2 级,准确率为 88%,将 1 级和 2、3 级的准确率为 82%。这项工作展示了基于早期内窥镜视频的手术场景难度理解的潜力。
摘要:为降低脑机接口(BCI)的准确率差异,提出了一种新的运动想象(MI)分类白化技术。该方法旨在提高脑电图特征脸分析对 BCI 的 MI 分类的性能。在 BCI 分类中,为了获得优异的分类结果,受试者之间的准确率差异对准确率本身很敏感。因此,借助 Gram-Schmidt 正交化,我们提出了一种 BCI 通道白化(BCICW)方案来最小化受试者之间的差异。新提出的 BCICW 方法改善了真实数据中 MI 分类的方差。为了验证和检验所提出的方案,我们使用 MATLAB 仿真工具对 BCI 竞赛 3 数据集 IIIa(D3D3a)和 BCI 竞赛 4 数据集 IIa(D4D2a)进行了实验。对于 D3D3a,使用基于 Gram–Schmidt 正交化的 BCICW 方法时,方差数据 (11.21) 远低于使用 EFA 方法 (58.33) 时,对于 D4D2a,方差数据从 (17.48) 降至 (9.38)。因此,所提出的方法可有效用于 BCI 应用的 MI 分类。
痴呆症是一种常见的脑部疾病,对个人和社会都有负面影响。本文涉及使用 Interspeech 2020 的自发语音 (ADReSS) 挑战赛对阿尔茨海默氏痴呆症进行分类。我们使用 (1) VGGish(一种深度预训练的 Tensorflow 模型)作为音频特征提取器,并使用 Scikit-learn 分类器来检测语音中的痴呆症迹象。三个分类器(LinearSVM、Perceptron、1NN)的准确率为 59.1%,比在挑战赛中使用的声学特征上训练的最佳基线模型高出 3%。我们还提出了 (2) DemCNN,这是一种新的基于 PyTorch 原始波形的卷积神经网络模型,准确率为 63.6%,比表现最佳的基线线性判别分析模型准确率高出 7%。我们发现,使用预训练的 VGGish 特征提取器的音频迁移学习比使用自动提取的声学特征的基线方法表现更好。我们的 DepCNN 表现出良好的泛化能力。本文介绍的两种方法都为通过自发语音进行新的、创新的、更有效的基于计算机的痴呆症筛查提供了进展。
基于脑电信号的脑机交互(BCI)可以帮助肢体运动障碍患者进行日常生活及康复训练,然而由于信噪比低、个体差异大,脑电特征提取与分类存在准确率和效率低下的问题。针对该问题,本文提出了一种基于深度卷积网络的运动想象脑电信号识别方法。该方法首先针对脑电信号特征数据质量不高的问题,利用短时傅里叶变换(STFT)和连续Morlet小波变换(CMWT)对采集的实验数据集进行基于时间序列特征的预处理,从而得到特征鲜明、具有时频特征的脑电信号。并基于改进的CNN网络模型对脑电信号进行高效识别,实现高质量的脑电特征提取与分类。进一步提高脑电信号特征采集的质量,保证脑电信号识别的较高准确率和精度。最后基于BCI竞赛数据集和实验室实测数据对所提方法进行验证,实验结果表明该方法对脑电信号识别的准确率为0.9324,精度为0.9653,AUC为0.9464,具有良好的实用性和适用性。
中风后患者需要持续的康复治疗来恢复因发病而造成的功能障碍,因此需要监测设备。脑电信号反映了大脑的电活动,这也表明了中风后患者的恢复情况。然而,脑电信号处理模型需要提供中风后状态的信息。深度学习的发展使其可以应用于中风后患者的识别。本研究提出了一种利用卷积神经网络(CNN)识别中风后患者的方法。小波作为机器学习的一个特征,用于提取脑电信号信息,反映中风后患者的状况。这个特征是Delta、Alpha、Beta、Theta和Mu波。此外,还根据中风后脑电信号的特点添加了这五个波的振幅特征。结果表明,特征配置对于区分至关重要。具有振幅和Beta特征的测试数据准确率为90%,而没有振幅或Beta特征的测试数据准确率为70%。实验结果还表明,自适应矩估计(Adam)优化模型比随机梯度下降(SGD)更稳定。但SGD可以提供比Adam模型更高的准确率。
脑机接口(BCI)是一种通过分析脑电信号识别个体意图或状态,进而控制计算机或机器的技术,广泛应用于各个领域。然而,脑机接口的研究多集中在运动想象方面,而对主动运动的研究多集中在上肢运动方面,而对下肢运动的研究多集中在静态或单一动作方面。因此,本研究基于动态环境下的脑电信号开发了对步行行为(1:步行,2:上楼,3:下楼)进行分类的深度学习模型,以验证对动态状态下的脑电信号进行分类的可能性。我们开发了一种结合卷积神经网络(CNN)和双向长短期记忆(BiLSTM)的模型。该模型获得了82.01%的平均识别性能,其中步行的平均准确率为93.77%,上楼的平均准确率为76.52%,下楼的平均准确率为75.75%。预计未来可以设计出各种旨在帮助残疾人和老年人的机器人设备,它们具有多种功能,例如人机交互、物体操纵和利用 BCI 进行控制的路径规划。