摘要:本研究研究了描绘变速箱,森林,农田和山脉的航空图像的分类。要完成分类工作,使用卷积神经网络(CNN)体系结构从输入照片中提取功能。然后,使用SoftMax对图像进行分类。要测试模型,我们使用90批量的ADAM优化器和0.001的学习率将其运行了十个时期。培训和评估都是使用数据集进行的,该数据集将Google卫星图像与MLRNET数据集融合在一起的图片。综合数据集包含10,400张图像。我们的研究表明,转移学习模型和MobilenetV2,对于景观分类非常有效。这些模型是实际使用的好选择,因为它们在精度和效率之间很好地结合在一起。我们的方法在内置的CNN模型上以87%的总体准确度获得了结果。此外,我们通过利用验证的VGG16和MobilenEtV2模型作为传输学习的起点,达到更高的精度。具体来说,VGG16的精度为90%,测试损失为0.298,而MobileNetV2的精度优于两个模型,其精度为96%,测试损失为0.119;结果表明,使用Mobilenetv2进行转移学习的有效性来对传输塔,森林,农田和山脉进行分类。关键字:航空图像,图像分类,卷积神经网络(CNN),转移学习
摘要。扩散模型以其具有巨大的新颖和高质量样本的能力而闻名,最近由于其数据记忆行为而引起了人们的关注,这带来了隐私风险。最新的减轻内存方法仅针对跨模式生成任务中的文本模式问题,或者使用数据增强策略。在本文中,我们从视觉模态的角度提出了一个针对扩散模型的新型培训框架,这对于缓解记忆更为通用和基本。为了促进扩散模型参数中的“获取”存储信息,我们通过将数据分成多个碎片来训练多个模型并间歇地汇总了这些模型参数,提出了一种迭代集合训练策略。此外,对损失的实际分析表明,易于记忆的图像的训练损失显然较低。因此,我们提出了一种抗差异控制方法,以从当前的迷你批次中排除损失值较低的样品,以避免记忆。进行了四个数据集的广泛实验和分析,以说明我们方法的有效性,结果表明我们的方法成功地降低了记忆能力,同时甚至略微改善了性能。此外,为了节省计算成本,我们成功地应用了我们的方法,以有限的时期来微调训练良好的扩散模型,以证明我们方法的适用性。代码可在https://github.com/liuxiao-guan/iet_agc中找到。
摘要:在被动 BCI 研究中,一种常见的方法是在相对较长的试验期间收集感兴趣的心理状态数据,并将这些试验划分为较短的“时期”,以作为分类中的单个样本。虽然众所周知,在这种情况下使用 k 倍交叉验证 (CV) 会导致心理状态可分离性的估计不可靠(由于来自同一试验的样本存在自相关),但 k 倍 CV 仍在被动 BCI 研究中广泛使用和报告。尚不清楚的是 k 倍 CV 在多大程度上歪曲了真正的心理状态可分离性。这使得很难解释使用它的研究结果。此外,如果清楚地知道问题的严重性,也许更多的研究人员会意识到他们应该避免它。在这项工作中,一个新颖的实验探索了类内样本之间的相关程度如何影响通过 k 倍 CV 估计的基于 EEG 的心理状态分类准确性。将结果与真实值 (GT) 准确度和“块级”CV(k 折的替代方法,旨在缓解自相关问题)进行了比较。还探讨了诸如真实类别可分度以及使用的特征集和分类器等因素。结果表明,在某些条件下,k 折 CV 使 GT 分类准确度增加高达 25%,但块级 CV 低估了 GT 准确度高达 11%。我们建议,在单受试者分析中,应尽可能减少来自同一次试验的样本数量,并报告 k 折和块级 CV 结果。
脑机接口 (BCI) 系统解码脑电信号,建立人脑与外界直接交互的通道,无需肌肉或神经控制。P300 拼写器是最广泛使用的 BCI 应用之一,它向用户呈现字符选择,并通过从 EEG 中识别 P300 事件相关电位来执行字符识别。这种基于 P300 的 BCI 系统可以达到良好的准确度,但由于冗余和噪声信号,在日常生活中难以使用。应该考虑改进的空间。我们为基于 P300 的 BCI 系统提出了一种新的混合特征选择方法,以解决特征冗余问题,该方法结合了孟格曲率和线性判别分析。首先,将选定的策略分别应用于给定的数据集,以估计应用于每个特征的增益。然后,按降序对每个生成的值集进行排序,并根据预定义的标准判断其是否适合分类模型。然后评估两种方法的交集以确定最佳特征子集。使用三个公共数据集(即 BCI 竞赛 III 数据集 II、BNCI Horizon 数据集和 EPFL 数据集)对所提出的方法进行了评估。实验结果表明,与其他典型的特征选择和分类方法相比,我们提出的方法具有更好或相当的性能。此外,我们提出的方法可以在三个数据集上在所有 epoch 之后实现最佳分类准确率。总之,我们提出的方法为提高基于 P300 的 BCI 拼写器的性能提供了一种新方法。
摘要 位置码表征在编码空间参数的电路中普遍存在。对于视觉引导的眼球运动,当刺激出现在大脑的感受野中和/或当运动进入大脑的运动场时,许多大脑区域的神经元都会发出脉冲。至关重要的是,单个神经元会对远离最佳向量的广泛方向或偏心率做出反应,这使得很难从每个细胞的活动中解码刺激位置或扫视向量。我们研究了是否有可能通过群体水平的分析来解码空间参数,即使最佳向量在神经元之间相似。当猴子对八个沿方向等距径向分布的目标之一执行延迟扫视任务时,用层状探针记录了上丘 (SC) 中的脉冲活动和局部场电位 (LFP)。随着试验从感觉到动作,离线应用分类器来解码空间配置。对于脉冲活动,在视觉和运动时期,所有八个方向的解码性能最高,而在延迟期间,解码性能较低但远高于偶然性。分类性能也遵循 LFP 活动的类似模式,只是延迟期间的性能主要限于首选方向。增加群体中的神经元数量可以持续提高两种模态的分类器性能。总体而言,这项研究证明了群体活动对解码单个神经元无法实现的空间信息的能力。
目的:通过分析脑活动来区分帕金森病静止性震颤和不同的自主手部运动。方法:我们重新分析了 6 名帕金森病患者的丘脑底核的脑磁图和局部场电位记录。数据是在停用多巴胺药物(Med Off)和服用左旋多巴(Med On)后获得的。使用梯度提升树学习,我们将时间段分类为震颤、握拳、前臂伸展或无震颤静止。结果:单独的丘脑底核活动不足以区分四种不同的运动状态(平衡准确度平均值:38%,标准差:7%)。相比之下,皮质和丘脑底核特征的组合可以实现更准确的分类(平衡准确度平均值:75%,标准差:17%)。与仅基于丘脑底活动的分类相比,添加单个皮质区域平均可将平衡准确度提高 17%。在大多数患者中,信息量最大的皮质区域是感觉运动皮质区域。Med On 和 Med Off 下的解码性能相似。结论:只要除了丘脑底活动外还监测皮质信号,电生理记录就可以区分几种运动状态。意义:通过结合皮质记录、皮质下记录和机器学习,自适应深部脑刺激系统可能能够特异性地检测震颤并对几种运动状态做出充分反应。2023 年国际临床神经生理学联合会。由 Elsevier BV 出版这是一篇根据 CC BY 许可开放获取的文章(http://creativecommons.org/licenses/by/4.0/)。
抽象目标识别是军事事务的优先事项。有必要识别移动的对象,不同的地形和景观创造识别障碍,这使此任务变得复杂。作战动作可以在一天中的不同时间进行,因此必须考虑照明角度和一般照明。有必要通过分割视频帧并识别和对其进行分类来检测视频中的对象。在工作中,作者提出了通过人工智能使用在拟议的信息技术框架内开发目标识别模块作为消防系统的组成部分。Yolov8模式识别模型家族用于开发目标识别模块。数据是从开源来源收集的,特别是从YouTube平台上的开源源中发布的视频录像。数据预处理的主要任务是在视频或实时-APC,BMP和TAMP上对三类对象进行分类。数据集是基于标记工具以及随后的增强工具的Roboflow平台形成的。数据集由1193个唯一图像组成 - 每个类别均匀。使用Google Colab资源进行培训。采用100个时代来训练模型。根据MAP50(平均平均精度为0.85),MAP50-95(0.6),精度(0.89)和召回(0.75)指标进行分析。这将是下一步。也有必要扩大军事设备对象的分类。存在巨大的损失,因为在研究中未考虑背景 - 基于未经技术的背景的验证数据(图像)训练模块。
销售点(POS)是一种计算机化的硬件和软件系统,可用于完成销售交易。在处理总计之前,在常规POS设置中,收银员手动扫描单个产品条形码。此手动程序很费力,通常会导致长期排队和等待时间,尤其是在高峰时段,最终影响了客户体验和保留。这项工作旨在通过计算机视觉方法自动化产品扫描程序,从而加快了销售流程。在马来西亚零售店中发现的常见产品的自定义数据集上训练了一个有效的Yolov4对象检测模型。最初获取了550张图像,并将80:20分为培训和验证组;进一步的增强培训组的大小增加了1,320张图像。以0.0013的学习率进行了10,000个时期的训练。在训练期间,该模型获得了99.19%的地图,平均IOU的87.42%,平均损失为0.40。随后,该模型被部署在运行事务通知程序的低功率单板计算机上。为了评估其性能,使用该系统处理了10种具有随机产品组合的购物车实例。系统通过其视频供稿自动识别和量化了所有产品,并实时生成逐项账单。以0.9置信度阈值固定,系统在所有对象类中产生98%的平均精度。在短短14秒内处理了从产品检测到将逐项账单交付给系统管理员的交易。此POS系统具有与无人商店集成的潜力,可提供无缝的购物体验。
摘要:创伤性脑损伤(TBI)是死亡和残疾的常见原因。但是,现有的TBI诊断工具是主观的,或者需要广泛的临床设置和专业知识。相对较高的计算系统的大小以及与TBI相关的机器学习研究的有希望的结果相结合的可负担性和减少,使得创建紧凑和便携式系统以早期检测到TBI成为可能。这项工作描述了基于Raspberry Pi的便携式,实时数据采集和自动处理系统,该系统使用机器学习来有效识别TBI并自动从单渠道电脑电脑(EEG)信号中自动为睡眠阶段分数。我们讨论了可以使用数字转换器(ADC)的类似物对EEG信号进行数字数字化的系统的设计,实现和验证,并执行实时信号分类以检测到温和TBI(MTBI)的存在。我们利用卷积神经网络(CNN)和基于XGBoost的预测模型来评估系统的性能和降低系统的多功能性,以使用多种类型的预测模型运行。,对于TBI与控制条件,在16 s -64 S时期的分类时间小于1 s的分类时间中,峰分类精度超过90%。这项工作可以实现适合现场使用的系统的开发,而无需为早期TBI检测应用和TBI研究提供专门的医疗设备。此外,这项工作开放了实施连接的,实时TBI与健康和健康监测系统的途径。
随着当前时代神经网络的研究,开发和应用的迅速增加,训练和使用模型所需的能量成比例增加。至关重要的是,这伴随着向环境排放的增加。一种可持续的有益方法,可减少与AI/深度学习现代时代相关的碳足迹和能源需求的上升,这是模型的适应性和连续再利用,这些模型在模型部署环境或输入数据中的变化/变化环境的变化方面进行了自适应。在此pa-per中,我们提出了预索引,这是一个预测索引,以估算与模型重新验证与数据分布变化相关的环境和计算资源。预索引可用于估计环境成本,例如从当前数据分布到新数据分布时碳排放和能源的使用。它还与并可以用来估计具有深度学习的其他资源指标,例如时期,梯度规范和模型参数变化的幅度。preedectex仅涉及数据的一个前传递,然后它提供了一个简洁的价值,以估算与重新验证的新分布移位数据相关的资源。我们表明,可以在各种数据集,模型体系结构,不同类型和分布变化的强度之间可靠地使用preedex。此工作的代码可在此处提供:https://github.com/jekimlab/aies2024preindex因此,preIndex使用户能够做出明智的决策,以重新进行不同的分发转移,并确定最具成本效益和可持续性的选择,从而可以重新使用在环境中具有较小占地面积的模型。