图 1:使用国际 10-20 系统从 (a) 矢状面和 (b) 轴平面 (c) 头皮角度看到的 64 个电极配置表示。注意:A= 耳垂,C = 中央,Pg = 鼻咽,P = 顶叶,F = 额叶,Fp = 额极和 O = 枕叶。
本文解决了生成法定说明(CES)的挑战,涉及识别和修改最少的必要特征,以使分类器对给定图像的预测进行预测。我们提出的方法是反事实e xplanations(Time)的tept to-i mage m odels,是一种基于蒸馏的黑盒反事实技术。与以前的方法不同,此方法仅需要图像及其预测,从而忽略了分类器的结构,参数或梯度的需求。在生成反事实之前,时间将两个不同的偏见引入了文本嵌入的形式稳定扩散:与图像的结构相关联的上下文偏差和类别偏见,与目标分类器学到的类特异性特征相关。学习了这些偏见后,我们发现了使用类预测的类令牌的最佳潜在代码,并使用目标嵌入作为条件,从而产生了符合性的解释。广泛的经验研究证明,即使在黑色盒子设置中运行时,时间也可以产生可比性的解释。
摘要 —近年来,深度学习 (DL) 对基于脑电图 (EEG) 的运动想象脑机接口 (MI-BMI) 的改进做出了重大贡献。在实现高分类准确率的同时,DL 模型的规模也不断扩大,需要大量的内存和计算资源。这对嵌入式 BMI 解决方案提出了重大挑战,该解决方案应通过本地处理数据来保证用户隐私、减少延迟和低功耗。在本文中,我们提出了 EEG-TCN ET,一种新颖的时间卷积网络 (TCN),它在只需要少量可训练参数的情况下实现了出色的准确率。其低内存占用和低推理计算复杂度使其适合在资源有限的边缘设备上进行嵌入式分类。在 BCI 竞赛 IV- 2a 数据集上的实验结果表明,EEG-TCN ET 在 4 类 MI 中实现了 77.35% 的分类准确率。通过为每个受试者找到最佳网络超参数,我们进一步将准确率提高到 83.84%。最后,我们在 Mother of All BCI Benchmarks (MOABB) 上展示了 EEG-TCN ET 的多功能性,这是一个包含 12 个不同 EEG 数据集和 MI 实验的大规模测试基准。结果表明,EEG-TCN ET 成功地推广到单个数据集之外,在 MOABB 上的表现比目前最先进的 (SoA) 好 0.25 倍。索引术语 — 脑机接口、运动意象、深度学习、卷积神经网络、边缘计算。
近年来,自主导航变得越来越流行。但是,大多数现有的方法在公路导航方面有效,并利用了主动传感器(例如LIDAR)。本文使用Passive传感器,特别是长波(LW)高光谱(HSI)的遍历性估计,重点介绍了自主越野导航。我们提出了一种方法,用于选择一部分高光谱带,该方法通过设计一个最小的传感器设计带选择模块,该模块设计一个最小的传感器,该模块设计了一个最小的传感器,该模块可以测量稀疏采样的光谱带,同时共同训练语义段网络网络,以进行遍历性估计。使用我们的LW HSI数据集在包括森林,沙漠,雪,池塘和开放式田野的各种越野场景中证明了我们方法的有效性。我们的数据集包括在各种天气条件下白天和夜间收集的图像,包括具有广泛障碍的具有挑战性的场景。使用我们的方法,我们学习了所有HSI频段中的一个小子集(2%),这些子频段可以在利用所有高光谱带时获得竞争性或更好的遍历性估计精度。仅使用5个频段,我们的方法能够实现平均类别的效果,该级别仅比使用完整的256波段HSI低1.3%,而仅比使用250频段HSI实现的效果仅比使用了0.1%,这证明了我们方法的成功。
基于扩散的生成模型在合成和操纵图像具有巨大的图像方面表现出了令人鼓舞的结果,其中文本到图像模型及其后续作品在学术界和行业中都具有很大的影响。编辑真实图像时,用户通常希望对不同元素具有直观而精确的控制(即对象)组成图像,并不断地操纵它们。我们可以根据图像中的单个观察的控制级别对现有的图像编辑方法进行分类。一条工作涉及使用文本提示来操纵图像[2,15,24,27]。由于很难与文本同时描述多个对象的形状和外观,因此在对象级别上对细粒度控制的能力有限。同时,迅速的工程使操纵任务乏味且耗时。另一项工作线使用低级调理信号,例如Hu等人。[18],Patashnik等。[34],Zeng等。[58],草图[50],图像[5,47,54]编辑图像。但是,其中大多数作品要么属于迅速的工程陷阱,要么无法独立操纵多个对象。与以前的作品不同,我们的目标是独立控制组成图像的多个对象的正确条件,即对象级编辑。我们表明,我们可以在对象级编辑框架下制定各种图像编辑任务,从而实现全面的编辑功能。
近年来,文本图像联合预训练技术在各种任务中显示出令人鼓舞的结果。然而,在光学特征识别(OCR)任务中,将文本实例与图像中的相应文本区域对齐是一个挑战,因为它需要在文本和OCR文本之间有效地对齐(将图像中的文本称为ocr-文本以与自然语言中的文本区分开来),而不是对整体图像内容的全面理解。在本文中,我们提出了一种新的预训练方法,称为o cr-text d估计化m odeling(ODM),该方法根据文本提示将图像中的文本样式传输到统一样式中。使用ODM,我们在文本和OCR文本之间实现了更好的对齐方式,并启用预训练的模型以适应场景文本的复杂和多样化的样式。此外,我们为ODM设计了一种新的标签生成方法,并将其与我们提出的文本控制器模块相结合,以应对OCR任务中注释成本的挑战,并以大量未标记的数据参与预培训。在多个Pub-LIC数据集上进行的广泛实验表明,我们的方法显着地证明了性能,并且在场景文本检测和发现任务中的当前预训练方法优于当前的预训练方法。代码在ODM上可用。
Revolutionising Medical Imaging with Computer Vision and Artificial Intelligence Edited by Seema Bhatnagar, Priyanka Narad, Rajashree Das and Debarati Paul This book first published 2024 Cambridge Scholars Publishing Lady Stephenson Library, Newcastle upon Tyne, NE6 2PA, UK British Library Cataloguing in Publication Data A catalogue record for this book is available from the British Library Copyright © 2024年,Seema Bhatnagar,Priyanka Narad,Rajashree Das,Debarati Paul和本书保留的所有权利。未经版权所有者事先许可,以任何形式或以任何形式或以任何形式(任何形式),以任何形式或以任何形式的方式,以任何形式或以任何形式)复制了本书的一部分,以任何形式或以任何形式或以任何方式传输。ISBN:978-1-0364-1061-2 ISBN(电子书):978-1-0364-1062-9ISBN:978-1-0364-1061-2 ISBN(电子书):978-1-0364-1062-9
Poldrack,Russell A. 1,Markiewicz,Christopher J. 1,Appelhoff,Stefan 2,Ashar,Yoni K. 3,Auer,Tibor 4,5,Baillet,Sylvain,Sylvain 6,Bansal,Bansal,Shashank 7,Shashank 7,Beltrachini,Beltrachini,Beltrachini,Leanar,Leanar,Benar,Christian G. 9,Bertazzoli,bertazzoli,bertazzoli,bertazzoli,10,11,11,11,11,11,11,11,11,11,11,11,11,11,11,11,11,11,11,11,11,11,1111 ,, ,Blair,Ross W. 1,Bortoletto,Marta 10,Boudreau,Mathieu 16,Brooks,Teon L. 1,Teon L. 1,Calhoun,Vince D. 17,Castelli,Castelli,Filippo Maria 18,19,Clement,Clement,Patricia 20,21,Cohen,Cohen,Cohen,Cohen,Alexander L.22 23,24,吉尔斯(De Hollander),吉尔斯(De Hollander),25,de la iglesia-vayá,玛丽亚26,de la vega,Alejandro 27,Delorme,Arnaud,28,Devinsky,Orrin 29,Draschkow,Draschkow,Dejan,Dejan 30,Duff,Duff,Eugene Paul 31,Dupre,Dupre,Elizabeth 1,Earlin,Erlin,Erlind 32 Illaume 34,Galassi,Anthony 32,Gallitto,Giuseppe 35,36,Ganz,Melanie 37,38,Gau,Rémi39,Gholam 39,Gholam,James 40,Ghosh,Satrajit S. 41,Giacomel,Giacomel,Giacomel,Alessio,Alessio,Alessio 42 44 , Gramfort, Alexandre 45 , Guay, Samuel 46 , Guidali, Giacomo 47 , Halchenko, Yaroslav O. 48 , Handwerker, Daniel A. 32 , Hardcastle, Nell 1 , Herholz, Peer 49 , Hermes, Dora 50 , Honey, Christopher J. 51 , Innis, Robert B. 32 , Ioanas, Horea-Ioan 48 , Jahn, Andrew 52 , Karakuzu, Agah 16 , Keator, David B. 53,54,55 , Kiar, Gregory 56 , Kincses, Balint 35,36 , Laird, Angela R. 57 , Lau, Jonathan C. 58 , Lazari, Alberto 59 , Legarreta, Jon Haitz 60 , Li, Adam 61 , Li, Xiangrui 62 ,Love,Bradley C. 63,Lu,Hanzhang 64,Marcantoni,Eleonora 65,Maumet,Camille 66,Mazzamuto,Giacomo67,Meisler 67,Meisler,Steven L. 68,Mikkelsen,Mikkelsen,Mark 69 4,75,Niso,Guiomar 76,Norgaard,Martin 32,37,Okell,Thomas W. 59,Oostenveld,Robert 77,78,Ort,Ort,Eduard 79,Park J. 80,Patrick J. 80,Pawlik,Pallik,Pallik,Mateusz,Mateusz 81,Pernet,Pernet,Pernet,Cyril R.38,Pestilli,Pestilli,Pestilli,Petilli,franco,Petr,Petr,Petr,Jan,Jan 272菲利普斯(Phillips),克里斯托夫(Christophe),83,派恩,让·巴蒂斯特(Jean-Baptiste)84,波罗尼尼(Pollonini),卢卡(Luca)85,86,拉马纳(Raamana),普拉德普·雷迪(Pradeep Reddy),里特(Ritter),佩特拉(Ritter),佩特拉(Petra)88,89,90,91,92,里佐(Rizzo) 99,Routier,Alexandre 100,Saborit-Torres,Jose Manuel 26,Salo,Taylor 101,Schirner,Michael 88,89,90,91,92,Smith,Smith,Robert E. 102,103,Spisak,Spisak,Spisak,Spisak,Tamas,Tamas 35,104,Sprenger,Sprenger,Julia,Julia 105,Swann,Swann,Swann,Swann,Nicole C. C. C. Nicole C. 106 , Szinte, Martin 105 , Takerkart, Sylvain 105 , Thirion, Bertrand 45 , Thomas, Adam G. 32 , Torabian, Sajjad 107 , Varoquaux, Gael 108 , Voytek, Bradley 109 , Welzel, Julius 110 , Wilson, Martin 111 , Yarkoni, Tal 112 , Gorgolewski, Krzysztof J. 1
虽然扩散模型已显着提高了图像生成的质量,但它们在这些图像中准确且相干渲染文本的能力仍然是一个重大挑战。场景文本生成的常规基于扩散的方法通常受到对中间布局输出的依赖的限制。这种依赖性通常会导致文本样式和字体的多样性限制,这是布局生成阶段的确定性质所引起的固有限制。为了应对这些挑战,本文介绍了SceneTeTgen,这是一种基于新颖的扩散模型,专门设计用于规避预定义布局阶段的需求。这样做,场景 - 文本促进了文本的更自然和多样化的代表。SceneTextGen的新颖性在于其三个关键组成部分的整体:一个字符级编码器,用于捕获详细的印刷属性,并与字符级实例分割模型和Word-
我们利用大型语言模型(LLM)进行零射击语义视听导航(SAVN)。现有的方法利用广泛的培训演示来巩固执行学习,但达到了相对较低的成功率和缺乏可普遍性。Auditary信号的间歇性质进一步构成了其他障碍,以减少目标信息。为了应对这一挑战,我们提出了Reflyception and I Maginative L Anguage A Gent(Rila)。通过采用多模式来处理SENSORY数据,我们指示基于LLM的规划师积极地展示环境。在探索过程中,我们的代理人对不准确的感知描述进行了适应性评估和驳回。此外,我们引入了辅助LLM的助手,以通过映射房间的布局并提供战略见解来增强全球环境综合。通过全面的实验和分析,我们表明我们的方法在没有环境和互补语义信息的培训演示的情况下优于相关的基线。