BRUCE X.B. YU , Zhejiang University-University of Illinois Urbana-Champaign Institute, Zhejiang Univer- sity, Haining, China and Zhejiang Provincial Engineering Research Center for Multimodal Transport Logistics Large Models, Haining, China JIANLONG CHANG , Huawei, Shenzhen, China HAIXIN WANG , Peking University, National Engineering Research Center for Software Engineering, Bei- jing, China LINGBO LIU , Peng Cheng Laboratory, Shenzhen, China SHIJIE WANG , Huawei, Shenzhen, China ZHIYU WANG , Huawei, Shenzhen, China JUNFAN LIN , Peng Cheng Laboratory, Shenzhen, China LINGXI XIE , Huawei, Shenzhen, China HAOJIE LI , Shandong University of Science and Technology, College of Computer Science and Engineering, Qingdao, China ZHOUCHEN LIN , National Key Lab of General AI, School of Intelligence Science and Technology, Peking University, China and Pazhou Laboratory (Huangpu), Guangzhou, China QI TIAN , Huawei, Shenzhen, China CHANG WEN CHEN , The Hong Kong Polytechnic University, Department of Computing, Hong Kong, Hong Kong
从眼睛到大脑:视觉是一个复杂的过程,始于眼睛。为了看到眼睛所看到的东西,眼睛的视觉信号必须发送到大脑。大脑中直接从眼睛接收信息的最重要区域之一是丘脑,它是大脑深层中心的结构。信息从那里传递到大脑后叶,即枕叶皮质。皮质是一种特殊的大脑组织,皮质区域专门用于各种不同的功能。例如,皮质有助于形成我们的记忆、解释和产生语言和言语、处理来自五种感官的信息,并有助于控制自主运动。枕叶皮质是专门用于视觉的区域。枕叶皮质从丘脑接收到视觉信息后,会向丘脑提供反馈,以控制我们关注的视觉信息,同时还会将信息发送到大脑的其他区域,以便我们能够根据所见采取行动或识别所见并将其与存储的记忆进行比较。除了皮质之外,眼睛还会将信息发送到我们的脑干和一个称为下丘脑的区域;发送到这些区域的重要视觉信息有助于我们的大脑控制眼球运动、眼睛的聚焦能力以及睡眠-觉醒周期。
在这项工作中,我们提出了梦想,这是一种fMRI到图像的方法,用于重建从大脑活动中查看的图像,基于人类Vi-Sual System的基本知识。我们制作的反向途径模仿了人类如何看待视觉世界的高度和平行性质。这些量身定制的途径专门用于fMRI数据的解密语义,颜色和深度线索,反映了从视觉刺激到fMRI录音的前进途径。这样做,两个组件模仿了人类视觉系统中的反向过程:反向Vi-Sual Toalsosis Cortex(R-VAC)逆转了该大脑区域的途径,从fMRI数据中提取语义;反向平行的PKM(R-PKM)组件同时预测fMRI信号的颜色和深度。实验表明,从外观,结构和语义的一致性方面,我们的方法优于最新模型。代码将在https://github.com/weihaox/dream上提供。
视觉场景是自然组织的,在层次结构中,粗糙的语义递归由几个细节组成。探索这种视觉层次结构对于认识视觉元素的复杂关系至关重要,从而导致了全面的场景理解。在本文中,我们提出了一个视觉层次结构映射器(HI-MAPPER),这是一种增强对预训练的深神经网络(DNNS)结构化理解的新方法。hi-mapper通过1)通过概率密度的封装来调查视觉场景的层次结构组织; 2)学习双曲线空间中的分层关系,并具有新颖的分层对比损失。预定义的层次树通过层次结构分解和编码过程递归地与预训练的DNN的视觉特征相互作用,从而有效地识别了视觉层次结构并增强了对整个场景的识别。广泛的实验表明,Hi-Mapper显着增强了DNN的表示能力,从而改善了各种任务的性能,包括图像分类和密集的预测任务。代码可在https://github.com/kwonjunn01/hi-mapper上找到。
脑视觉障碍(CVI)是儿童双边视觉障碍的主要原因,通常以视觉敏锐度(VA)损失(VA)丢失和较高的视觉功能缺陷(HVFD)为特征。但是,VA损失与HVFD之间的关系仍然未知。先前使用较高视觉函数问题清单(HVFQI)的研究表明,正常的VA并未排除HVFD。在这项对CVI儿童的前瞻性对照研究中,我们研究了HVFD和VA损失程度之间的关系,以完善我们对这种关系的理解。我们介绍了两个新指数 - HVFD频谱和严重性 - 以全面了解CVI如何影响单个孩子和整个队列。我们还进行了分析,以确定HVFQI在引发HVFD的有效性,并对HVFD与年龄之间的关系进行初步分析。研究参与者包括59名CVI儿童(年龄:9.87±3.93岁[平均±SD];双眼VA:0.35±0.34 log Mar。)和120个具有正常视力的神经型(NT)儿童(年龄:8.7±2.8岁;双眼VA:0.14±0.16 logmar)。临床病史和注释独立证实了CVI的诊断。父母接受了HVFQI的采访,并使用五级李克特量表记录了他们的回答。Mann - Whitney U-Test(MWU)确定了HVFQI区分CVI和NT参与者的能力;费舍尔的精确测试(FET)和D-可变性的希尔伯特 - 西米特独立标准(DHSIC)评估了HVFDS和VA之间的独立性。使用DHSIC分析支持这些发现(P -Value 0.784)。CVI(频谱:0.65±0.24,严重程度:3.1±0.77)和NT(频谱:0.12±0.17,严重性:1.42±0.49)的平均光谱(范围0-1)和严重程度(范围1-5)指标(0.65±0.24,严重程度:3.1±0.77)。mwu(p -value <0.00001)证实了HVFQI将CVI与NT儿童区分开的能力。FET报告的p值为0.202,这表明数据在HVFDS的严重程度与VA之间没有任何关系。基于这些结果,我们敦促除了VA措施外,还需要对HVFD的所有怀疑CVI的儿童进行评估。HVFQI可能会增加我们对视觉感知,认知和视觉指导作用的神经基础的理解,并带领我们朝着CVI的概念模型迈进,转化为临床实践改进。