企业文档,例如表格,收据,报告和其他此类记录,通常在文本和规范模式的交集中携带丰富的语义。其复杂布局提供的视觉提示在有效地培养这些文档中起着至关重要的作用。在此过程中,我们提出了Docllm,这是传统大型语言模型(LLMS)的轻量级扩展,以考虑文本语义和空间布局,以通过视觉文档进行推理。我们的模型通过避免昂贵的图像编码器并专注于边界框信息以结合空间外部结构,这与现有的Mul- Timodal llms不同。具体而言,文本和空间方式之间的交叉对齐是通过将经典变压器中的注意机制分解为一组分离的矩阵来捕获的。此外,我们设计了一个学会填充文本段的预训练目标。这种方法使我们能够解决视觉文档中经常遇到的不规则布局和异质内容。使用大规模的指定数据集对预训练的模型进行了微调,涵盖了四个核心文档中的识别任务。我们证明,在所有任务中,在16个数据集中的14个数据集中,我们的解决方案的表现优于Sota LLMS,并概括为5个以前看不见的数据集中的4个。
对象识别是人类将视觉世界组织成有意义的感知单元的过程。要了解人类的这种能力,重要的是要检查其起源在婴儿期及其成熟的过程。在这篇综述中,我们通过综合发展心理学,认知神经科学和计算建模的研究来研究对象识别的发展。我们描述了第一年,婴儿如何展示成人视觉能力的早期痕迹,从不变对象识别到几类学习。这些能力的快速发展得到了婴儿特异性的生物学和经验约束的支持,例如低视敏度和对对称性等特性的先天偏见。此外,婴儿对物体的经验是“自我策划的”,因此他们选择了最能支持学习的对象观点。的确,将类似婴儿的约束结合到计算模型中可以提高其在许多识别任务上的表现。支持婴儿期这些能力的神经机制可能与成年后的神经机制不同:而腹侧视觉途径对于成年人的对象识别至关重要,而婴儿的对象识别可能主要由低级视觉特性支持,并且潜在的是背途径表示。一起,这些研究强调了儿童特定发育生态位在塑造早期对象识别能力及其神经基础方面的重要性。
摘要:在先前的研究中,已用于脑电(EEG)信号处理的特征提取。但是,时间窗长度对下游任务(例如情绪识别)的特征提取的影响尚未得到很好的检查。为此,我们研究了不同时间窗口(TW)长度对人类情绪识别的影响,以发现提取脑电图(EEG)情绪信号的最佳TW长度。功率谱密度(PSD)特征和差分熵(DE)特征均用于根据SJTU EMOMIT EEG数据集(SEED)评估不同TW长度的有效性。随后使用EEG功能处理方法处理不同的TW长度,即实验级批归归量表(ELBN)。处理的特征用于在六个分类器中执行情感识别任务,然后将结果与没有ELBN的结果进行比较。识别精度表明2-S TW长度在情感上具有最佳性能,并且最适合于EEG功能提取用于情绪识别。在使用基于PSD和DE功能的SVM时,ELBN在2-S TW中的部署可以进一步提高21.63%和5.04%。这些结果在分析智能系统应用的EEG信号时为选择TW长度的选择提供了可靠的参考。
摘要:近年来,基于脑电图(EEG)的情绪识别引起了研究界越来越多的兴趣。EEG数据的弱信号、非平稳、多节律和多通道特性容易导致提取的EEG样本和特征在识别情绪状态时的贡献不同。然而,现有的研究要么没有同时考虑样本和特征重要性问题,要么只考虑了其中之一。在本文中,我们提出了一种称为sJSFE(半监督联合样本和特征重要性评估)的新模型,分别通过自步学习和特征自加权来定量测量样本和特征重要性。在SEED-IV数据集上的实验结果表明,通过同时挖掘样本和特征重要性可以大大提高情绪识别性能。具体来说,sJSFE 在三个跨会话识别任务中获得的平均准确率为 82.45%,分别比传统模型的结果高出 3.72% 和 7.21%,以及 10.47% 和 18.82%。此外,特征重要性向量表明 Gamma 频带贡献最大,前额叶、左/右颞叶和(中央)顶叶的大脑区域与情绪识别的相关性更高。样本重要性描述符表明,连续试验中视频类型的连续转换可能会削弱所收集 EEG 数据的特征标签一致性。
对功能性脑网络(FBN)中的动态特征进行建模对于理解人脑的功能机制很重要。但是,目前的作品并未完全考虑人脑中潜在的复杂空间和时间相关性。为了解决这个问题,我们建议针对大脑网络的时间图表示学习框架(BraintGL)。框架涉及一个时间图池,以消除嘈杂的边缘和数据不一致,以及用于捕获时间图的时空特征的双时间图学习。已在四个数据集上的诊断/性别分类(分类任务)和亚型识别(聚类任务)中评估了所提出的方法:Human Connectome Project(HCP),自闭症脑成像数据交换(ABID),NMU-MDD和NMU-BD。为ASD诊断实现了很大的改进。具体而言,我们的模型的表现分别超过了GroupInn和ST-GCN的准确性4.2%和8.6%,与基于功能连接性特征或学识渊博的时空特征的最新方法相比,其优势与最新方法相比。结果表明,在FBN中学习建模动力学特征的时空 - 临时大脑网络表示可以改善模型在疾病诊断和亚型识别任务上的多种疾病的表现。除了性能外,计算效率和收敛速度的提高降低了培训成本。
摘要:近年来,基于脑电图(EEG)的情绪识别引起了研究界越来越多的兴趣。EEG数据的弱信号、非平稳、多节律和多通道特性容易导致提取的EEG样本和特征在识别情绪状态时的贡献不同。然而,现有的研究要么没有同时考虑样本和特征重要性问题,要么只考虑了其中之一。在本文中,我们提出了一种称为sJSFE(半监督联合样本和特征重要性评估)的新模型,分别通过自步学习和特征自加权来定量测量样本和特征重要性。在SEED-IV数据集上的实验结果表明,通过同时挖掘样本和特征重要性可以大大提高情绪识别性能。具体来说,sJSFE 在三个跨会话识别任务中获得的平均准确率为 82.45%,分别比传统模型的结果高出 3.72% 和 7.21%,以及 10.47% 和 18.82%。此外,特征重要性向量表明 Gamma 频带贡献最大,前额叶、左/右颞叶和(中央)顶叶的大脑区域与情绪识别的相关性更高。样本重要性描述符表明,连续试验中视频类型的连续转换可能会削弱所收集 EEG 数据的特征标签一致性。
摘要 - 基于表面肌电图(SEMG)的分析的手动运动的准确建模为开发复杂的假体设备和人机界面的开发提供了令人兴奋的机会,从离散的手势识别转向连续运动跟踪。在这项研究中,我们基于轻量级尖峰神经网络(SNN)和在晶格ICE40-ultraplus FPGA上实施了两种实时SEMG加工的解决方案,特别适用于低功率应用。我们首先评估离散手势识别任务中的性能,考虑到参考Ninapro DB5数据集,并在十二个不同的固定手势的分类中占83.17%的准确性。我们还考虑了连续填充力建模的更具挑战性的问题,在独立的扩展和收缩练习中引用了用于填充跟踪的Hyser数据集。评估表明,高达0.875的相关性与地面真正的力。我们的系统利用了SNN的固有效率,并在活动模式下消散11.31 MW,以进行手势识别分类的44.6 µJ,用于强制建模推理的手势识别分类和1.19 µJ。考虑动态功率消费管理和引入空闲时期,对于这些任务,平均功率下降至1.84兆瓦和3.69兆瓦。
答案:C解释:复发性神经网络(RNN)是一类神经网络,节点之间的连接可以形成周期。此周期创建一个反馈循环,该循环允许网络维护内部状态或内存,该状态或内存持续到不同的时间步骤。这是RNN的关键特征,它将它们与其他神经网络区分开来,例如仅在一个方向上处理输入并且没有内部状态的前馈神经网络。rnns对于上下文或顺序信息很重要的任务特别有用,例如语言建模,时间序列预测和语音识别。保留先前输入信息的能力使RNN能够根据整个数据顺序做出更明智的预测,而不仅仅是当前输入。对比:选项A(它们并行处理数据)是不正确的,因为RNN通常会顺序处理数据,而不是并行处理。选项B(它们主要用于图像识别任务)是不正确的,因为图像识别更常见于卷积神经网络(CNN),而不是RNN。选项D(它们没有内部状态)是不正确的,因为具有内部状态是RNN的定义特征。此反馈循环是RNN的运行基础,并允许他们通过“记住”过去的输入来有效地处理数据序列以影响未来的输出。此内存功能使RNN适用于涉及顺序或时间相关数据的应用程序。
摘要。使用技术资源来开发医院环境中的关键任务,例如手术室,必须仔细完成,例如,在使用键盘或鼠标控制的设备时,避免通过触摸污染材料。从这个意义上讲,可以通过手势控制的设备作为克服此问题的适当方法。尽管有明显的好处,但这种类型的互动带来了一些挑战,例如需要适合执行任务的手势的词汇,此外,还有一种手势词汇,可以被环境中存在的传感器所识别。在这项工作中,我们描述了使用LEAP运动传感器来解决手势词汇识别任务的结果,旨在将其与Maring'a区域大学医院紧急和紧急部门使用的系统相结合。为此,我们定义了一个手势 - 示例和一组由指尖距离手掌中心的距离组成的特征。之后,我们创建了一个手势数据集,该数据集由10个不同的手势组成,共有20,000个样本。创建的数据库也将作为对这项工作的贡献。对于分类,我们评估了许多不同的分类。实验表明,可以使用拟议的策略来实现有希望的结果:通过优化贝叶斯搜索的超参数优化,并将模型与投票分类器相结合,我们实现了95.8个关键字的准确性:Leap Motion Sensor·手势识别·人体计算机界面·人体界面·信息系统。
摘要。最近的视频蒙版自动编码器(MAE)作品已签署了以显着性为重点的改进的掩盖算法。这些作品利用了视觉提示,例如掩盖最突出区域的运动。但是,此类视觉提示的鲁棒性取决于输入视频的频率匹配基础假设。另一方面,自然语言描述是视频的信息密集表示,它隐含地捕获了显着性而无需特定于模态的标题,并且尚未探索视频MAE。为此,我们介绍了一种新颖的文本引导掩蔽算法(TGM),该算法掩盖了与配对字幕最高对应的视频区域。在不利用任何显式视觉提示的情况下,我们的TGM与最先进的掩蔽算法(如运动引导掩盖)具有竞争力。为了从自然语言的语义中进一步受益于掩盖重建的语义,我们接下来引入了一个统一的MAE和蒙版视频文本对比学习的统一框架。我们表明,在现有的掩蔽算法中,与纯MAE相比,在各种视频识别任务上,统一MAE和蒙版视频对比学习可以改善下游性能,尤其是对于线性探测。在这个统一的框架内,我们的TGM在五个动作识别和一个以自我为中心的数据集上实现了最佳的相对性能,从而突出了自然语言对掩盖视频建模的互补性。