抽象动机:由于DNA测序的进步,现在常规地进行了环境微生物群落的分类学分析。确定这些群落在全球生物地球化学周期中的作用需要鉴定其代谢功能,例如氢氧化,还原和碳固定。这些功能可以直接从宏基因组学数据中推断出来,但是在许多环境应用中,MetabarCoding仍然是选择的方法。从元法编码数据及其整合到地球化学循环的粗粒表示中,代谢功能的重建仍然是当今有效的生物信息学问题。结果:我们开发了一条称为Tabigecy的管道,该管道利用分类学官员来预测构成生物地球化学周期的代谢功能。在第一个步骤中,Tabigecy使用该工具Esmecata从输入液位中预测共识蛋白质组。为了优化此过程,我们生成了一个预先计算的数据库,其中包含来自Uniprot的2,404个分类单元的信息。使用BigeCyhmm搜索了共有的蛋白质组织,BigeCyhmm是一个新开发的Python软件包,依靠隐藏的Markov模型来识别参与生物地球化学周期代谢功能的关键酶。然后将代谢功能投射到周期的粗粒表示上。我们将塔博基(Tabigecy)应用于两个盐洞数据集,并通过对样品进行的微生物活性和水力化学测量结果验证了其预测。结果突出了研究微生物群落对地理化学过程的影响的方法。关键字:微生物群落,生物地球化学周期,代谢功能,分类学官员
图1:实验设计。示例序列的示例部分是面部作为奇数类别的条件。图像显示为233ms,因此更新(载波)频率为4.286 Hz。每5个图像以0.857 Hz的速度出现一次不同的示例。这称为奇数频率。在每种条件下,通过类别阻止,将图像呈现14秒,并包含12个这样的奇数周期。在每个演示序列(70秒)中,参与者以随机顺序查看5个条件中的每个条件中的每个条件都有不同的奇数类别类别:面部,四肢,走廊,角色,角色和汽车。我们平均每个参与者每类收集6个序列。每个70秒序列都使用了不同的图像。图像跨越12°。这里的面部图像上涵盖了文本“面”,以符合Biorxiv的出版政策。
在高峰时段,一名行人穿过一条街道,经常看起来并听潜在的危险。当他们听到几个不同的角时,他们将鸣喇叭的汽车定位,并决定是否需要修改其运动计划。行人如何使用此听觉信息在视觉空间中挑选相应的汽车?这样的分布式表示形式的集成称为分配问题,必须解决它以在跨感觉模态范围内整合不同的表示形式。在这里,我们识别并分析了分配问题的解决方案:在相关大脑区域成对的一个或多个常见刺激特征(例如,在视觉和听觉系统中都表示对汽车空间位置的估计。我们表明该解决方案的可靠性如何取决于刺激集的不同特征(例如,集合的大小和刺激的复杂性)以及分裂代表的细节(例如,每个刺激表示的精度和重叠信息的量和重叠信息的量)。接下来,我们在生物学上合理的接收场代码中实现了该解决方案,并显示该代码使用的神经元和尖峰数量的约束迫使大脑在局部和灾难性错误之间进行权衡。我们表明,当有许多尖峰和神经元可用时,尽管有分配错误的风险,但在多个大脑区域中代表单个感觉方式的刺激可以更可靠地完成。最后,我们表明,即使以两种不同的表示格式接收输入,馈送神经网络也可以学习对分配问题的最佳解决方案。我们还讨论了有关人类工作记忆文献中分配错误的相关结果,并表明我们理论的几个关键预测已经得到支持。
在理解过程中,人类大脑会表现计算机程序的哪些方面?我们通过分析程序员理解 Python 代码的功能性磁共振成像 (fMRI) 研究得出的大脑记录来研究这个问题。我们首先评估一系列静态和动态代码属性,例如抽象语法树 (AST) 相关和运行时相关指标,并研究它们与神经大脑信号的关系。然后,为了了解大脑表征是否编码了有关计算机程序的细粒度信息,我们训练了一个探测器,将大脑记录与一套在代码上训练的 ML 模型学习到的表征进行对齐。我们发现,多需求和语言系统(负责非常不同的认知任务的大脑系统)都编码了特定的代码属性,并与机器学习的代码表征唯一一致。这些发现表明至少有两种不同的神经机制介导计算机程序的理解和评估,促使设计超越静态语言建模的代码模型目标。我们将所有相应的代码、数据和分析公开发布在 https://github.com/ALFA-group/code-representations-ml-brain
。cc-by-nc-nd 4.0国际许可证(未经同行评审证明)获得的是作者/资助者,他授予Biorxiv授予Biorxiv的许可,以永久显示预印本。它是制作
如果没有学习,我们就会局限于一组预先编程的行为。虽然这对苍蝇 1 来说可能是可以接受的,但它并不能为人类熟悉的自适应或智能行为提供基础。因此,学习是大脑运作的重要组成部分之一。然而,学习需要时间。因此,自适应行为的关键是学会系统地概括;也就是说,学会可以灵活地重新组合以理解你面前的任何世界的知识。这篇论文试图在两个问题上取得进展——大脑网络如何学习,以及允许概括的知识表征背后的原理是什么。随着科学的工业化,二十世纪结出了硕果,人们对神经元、突触、神经递质、静息电位、动作电位、网络等的了解越来越详细(1-4)。尽管我们已经对其中许多微观过程有了相当详细的了解,并且由于哲学、实验心理学以及行为和认知神经科学 (5–9) 而对智能有了高层次的理解,但是在这些粒度级别之间仍然存在巨大的理解鸿沟。本论文致力于通过提供可转化为低级过程的高级计算框架来弥合这一差距。任何高级大脑框架的核心都必须是成功的行为,因为这是大脑的作用。类似地,神经元对于低级理解至关重要,因为人们认为大脑功能的基础是通过加权连接介导的神经元之间的信息传递。不同的权重导致不同的功能。因此,学习适当的权重配置是大脑面临的基本问题。这种学习有两个方面 - 第一个是如何,第二个是什么。如何是确定这些突触连接更新的学习算法,而什么是反映世界如何运作的神经表征。在这一脉络中,本论文研究了 1) 生物神经网络中学习的算法实现,以及 2) 任务泛化的神经表征的计算框架。这两个研究方向都与贝叶斯思想紧密相连,并且这两项工作都弥合了高级和低级理解之间以及大脑和机器之间的差距。
。cc-by-nc-nd 4.0国际许可证(未经同行评审证明)获得的是作者/资助者,他授予Biorxiv授予Biorxiv的许可,以永久显示预印本。这是该版本的版权持有人,该版本发布于2020年11月27日。 https://doi.org/10.1101/2020.11.25.398511 doi:Biorxiv Preprint
版权所有©2020 Ikutani等。这是根据Creative Commons Attribution 4.0国际许可条款分发的开放访问文章,只要将原始工作正确归因于任何媒介,它允许在任何媒介中进行无限制的使用,分发和复制。
图1:实验设计。示例的示例部分在带有面部的条件下显示为233ms的奇数类别图像,因此更新(载波)频率为4.286 Hz。每5个图像以0.857 Hz的速度出现一次不同的示例。这称为奇数频率。在每种条件下,通过类别阻止,将图像呈现14秒,并包含12个这样的奇数周期。在每个演示序列(70秒)中,参与者以随机顺序查看5个条件中的每个条件中的每个条件都有不同的奇数类别类别:面部,四肢,走廊,角色,角色和汽车。我们平均每个参与者每类平均收集6个序列,每个70秒序列使用不同的图像。图像跨越12°。这里的面部图像被文本“面”涵盖,以符合Biorxiv的出版政策。
代表质子和其他黑龙的Parton分布函数(PDF)通过柔性,高保真的参数化已成为粒子物理现象学的长期目标。尤其如此,因为所选的参数化方法可以在QCD全局分析中提取的最终PDF不确定性中起影响力。反过来,这些通常是LHC和其他设施到非标准物理的实验范围的确定性,包括在大X上,参数化效应可能很重要。在这项研究中,我们探索了一系列具有各种神经网络拓扑的编码器 - 模型学习(ML)模型,作为从可解释的潜在空间中存储的有意义的信息中重建PDF的有效手段。鉴于最近努力在QCD分析和晶格规范计算之间进行协同效应,我们根据PDF在Mellin空间中的行为(即它们的综合力矩)制定了潜在表示,并测试了各种模型从该信息中解释PDF的能力。我们引入了一个数值软件包PDFDE-CODER,该软件包实现了几种编码器模型,以重建具有高忠诚度的PDF,并使用此端到端工具来探索基于神经网络的模型可能如何将PDF Para-para-para-para-质量连接到诸如其Melllin Moments之类的属性属性。我们还剖析了编码的Mellin矩和重建的PDF之间学习相关性的模式,这些模式提出了进一步改进基于ML的PDF参数化方法和不确定性量化的机会。