大型语言模型(LLM)和视觉语言模型(VLM)在各种任务和域中都具有出色的性能。尽管有希望,空间理解和推理(人类认知的基本组成部分)被认为是探索的。我们提出了Spatialeval,这是一种新颖的基准,涵盖了空间推理的各个方面,例如关系理解,导航和计数。我们对竞争语言和视觉语言模型进行了全面评估。我们的发现揭示了文献中忽略的几种违反直觉的见解:(1)空间推理提出了重大挑战,竞争模型可以落后于随机猜测; (2)尽管有其他视觉输入,但与LLM的同行相比,VLM的表现经常不足; (3)当提供文本和视觉信息时,如果提供了足够的文本线索,多模式的语言模型就会减少视觉信息。此外,我们证明了视觉和文本之间的冗余可以显着提高模型性能。我们希望我们的研究能够为多模式模型的发展提供信息,以改善空间智能并通过人类智能进一步缩小差距。我们的代码可在https://github.com/jiayuww/spatialeval上找到。
基于想象语音的异步脑机接口 (BCI) 是一种工具,它允许通过解码想象语音的 EEG 信号来控制外部设备或在用户需要时发出消息。为了正确实现这些类型的 BCI,我们必须能够从连续信号中检测出受试者何时开始想象单词。在本文中,提出了基于小波分解、经验模态分解、频率能量、分形维数和混沌理论特征的五种特征提取方法,以解决从连续 EEG 信号中检测想象词段的任务,作为基于想象语音的异步 BCI 的后续实现的初步研究。使用四个不同的分类器在三个数据集中测试了这些方法,获得的较高 F 1 分数分别为每个数据集的 0.73、0.79 和 0.68。这些结果有望建立一个自动分割想象词段以供后期分类的系统。
在本文中,我们提出了一个使用多通道卷积神经网络 (MC-CNN) 的框架,用于从脑电图 (EEG) 信号中识别隐性口语单词的语法类别(动词或名词)。我们提出的网络通过考虑 EEG 信号的空间、时间和频谱特性来提取特征。此外,从大脑不同区域获取的信号集在所提出的框架内分别处理,然后在分类阶段组合。这种方法使网络能够有效地从处理想象语音的大脑位置学习判别特征。我们的网络经过了具有挑战性的实验测试,包括测试对象未参与系统训练的情况。在我们的主要应用场景中,训练期间未使用任何特定名词或动词的实例,我们的方法实现了 85.7% 的识别率。此外,我们提出的方法在公开可用的 EEG 数据集上进行了评估,并在二元分类中实现了 93.8% 的识别率。这些结果证明了我们方法的潜力。 2021 作者。由 Elsevier BV 出版 这是一篇根据 CC BY 许可 (http://creativecommons.org/licenses/by/4.0/) 开放获取的文章。
由中国航空航天研究院在美国印刷 ISBN 9798711548140 如需更多副本,请直接咨询中国航空航天研究院院长,空军大学,55 Lemay Plaza,AL 36112 所有照片均根据知识共享署名-相同方式共享 4.0 国际许可证获得许可,或根据《版权法》第 107 条的合理使用原则获得许可,用于非营利性教育和非商业用途。所有其他图形均由中国航天研究院创建或为其创建 电子邮件:Director@CASI-Research.ORG 网址:http://www.airuniversity.af.mil/CASI https://twitter.com/CASI_Research @CASI_Research https://www.facebook.com/CASI.Research.Org https://www.linkedin.com/company/11049011 免责声明 本学术研究论文中表达的观点均为作者观点,并不一定反映美国政府或国防部的官方政策或立场。根据空军指令 51-303、知识产权、专利、专利相关事项、商标和版权;本作品属于美国政府财产。有限的印刷和电子发行权 复制和印刷受 1976 年版权法和美国适用条约的约束。本文件及其所含商标受法律保护。本出版物仅供非商业用途使用。禁止未经授权在线发布本出版物。允许复制本文件用于个人、学术或政府用途,前提是未经修改且完整,但复制时请注明作者和中国航天研究所 (CASI)。复制或以其他形式重复使用其任何研究文件用于商业用途,必须获得中国航天研究所的许可。有关重印和链接许可的信息,请联系中国航天研究所。已获准公开发布,分发不受限制。
1个实验ML系统细分,Sberdevices Department,PJSC Sberbank,121165俄罗斯莫斯科; dvvorontsova@sberbank.ru(d.v.); aizubov@sberbank.ru(a.z.); bernalis@yandex.ru(P.R.); ensezvereva@sberbank.ru(E.Z.); le tlipman@sberbank.ru(l.f.); ablanikin@sberbank.ru(A.L.); aalekokolova@sberbank.ru(A.S。); Markov.s.s@sberbank.ru(S.M.)2俄罗斯莫斯科的国家电子技术大学(MIET)国家研究大学(MIET)软件工程系3莫斯科州立大学的力学和数学学院,GSP-1,1 Leninskiye-Gory,Main Building,119991莫斯科,俄罗斯,俄罗斯,俄罗斯; Moscow物理与技术研究所(MIPT),141700 Dolgodudny,俄罗斯5信息技术与计算机科学系141700年,莫斯科物理与技术研究所(MIPT)控制与应用数学系4 4 4. Ostrovityanova Street联邦医学生物机构的神经技术”,第1页。 10,117997俄罗斯莫斯科; rensorlov@icloud.com 7俄罗斯血管内神经协会(RENS),俄罗斯莫斯科107078 *通信:bernadotte.alexandra@intsys.msu.ru†主要贡献。2俄罗斯莫斯科的国家电子技术大学(MIET)国家研究大学(MIET)软件工程系3莫斯科州立大学的力学和数学学院,GSP-1,1 Leninskiye-Gory,Main Building,119991莫斯科,俄罗斯,俄罗斯,俄罗斯; Moscow物理与技术研究所(MIPT),141700 Dolgodudny,俄罗斯5信息技术与计算机科学系141700年,莫斯科物理与技术研究所(MIPT)控制与应用数学系4 4 4. Ostrovityanova Street联邦医学生物机构的神经技术”,第1页。 10,117997俄罗斯莫斯科; rensorlov@icloud.com 7俄罗斯血管内神经协会(RENS),俄罗斯莫斯科107078 *通信:bernadotte.alexandra@intsys.msu.ru†主要贡献。
摘要 — 无声语音期间产生的脑信号已被证明可用于设计基于通信的脑机接口 (BCI)。然而,脑信号本质上是非平稳和复杂的,因此很难识别。我们提出了一个使用通过脑电图 (EEG) 传感器捕获的脑信号识别想象单词的框架。我们的方法包括两个主要部分:(i) 电极选择方法和 (ii) 卷积注意网络。电极选择方法为想象语音识别提供包含最具辨别力的时频信息的电极。此外,来自选定电极的声谱图被用作卷积注意网络的输入,该网络提取时频特征并通过将更高重要性归因于具有更高辨别能力的时间点来执行分类。使用 EEG 数据集的实验结果表明,所提出的方法能够有效识别心里说出的单词,并且性能优于最先进的方法。索引词 —EEG、脑机接口、卷积网络、注意力、内在语言、无声语言、电极选择、时频
2024 年 12 月 12 日——威廉·伦诺克斯神经医院 (WLNH) 实施了一项创新战略,结合使用由...开发的人工智能 (AI) 工具
在广泛的数据集上预先训练的视觉语言模型(VLMS)可以通过将性别信息与特定对象或场景相关联,无意中地学习偏见。当前方法,该方法着重于修改输入并监视模型的输出概率分数的变化,通常从模型组件的角度来全面地偏见。我们提出了一个框架,该框架结合了因果中介分析,以确保并绘制VLM中偏见产生和传播的途径。我们的框架适用于广泛的视觉语言和多模式任务。在这项工作中,我们将其应用于对象检测任务并将其应用于GLIP模型。这种方法使我们能够确定干预措施对模型偏差的直接影响以及干预措施对通过不同模型组件介导的偏差的间接影响。我们的结果表明,图像效果是偏见的主要因素,其影响明显高于文本特征,特别是占MSCOCO和PASCAL-SONTIC数据集中偏见的32.57%和12.63%。值得注意的是,图像编码器的贡献超过了文本编码器和深层融合编码器的贡献。进一步的实验证实,语言和视力方式的贡献是对齐和不集中的。因此,在图像编码器中着重于模糊的性别表示,这对模型偏见做出了最大的贡献,在MSCOCO和PASCAL-SENTENCE数据集中,有效地降低了偏见22.03%和9.04%,并且具有最小的性能损失或增加的计算需求。1
图 2. Frak 等人(2001 年)使用的实验范例说明。上图为显性动作,参与者被要求用拇指和食指抓住一个装满水的圆柱形容器,将水倒入容器中。下图为隐性动作。左图:计算机显示器上容器(即圆盘)的示意图。圆盘上的两条小线表示在想象动作期间食指和拇指应放置的位置。右图:操纵对立轴从 -22° 到 +56°。
。CC-BY-NC-ND 4.0 国际许可证 它是永久可用的。 是作者/资助者,已授予 medRxiv 许可以显示预印本(未经同行评审认证)预印本 此版本的版权所有者于 2024 年 1 月 22 日发布。;https://doi.org/10.1101/2024.01.21.23300437 doi:medRxiv 预印本