*: Correspondence: Dr. Ganesh B Chand (Email: gchand@wustl.edu ) and Dr. Hui-Yuan Miao (Email: miaoh@wustl.edu ) Credit authorship contribution statement YN: Conceptualization, Methodology, Software, Formal analysis, Visualization, Data curation, Writing – original draft, Writing - review & editing; TM:方法,软件,正式分析,写作 - 审核和编辑; HYM:方法,写作 - 原始草稿,写作 - 评论和编辑; PB:方法,软件,写作 - 原始草稿,写作 - 评论和编辑; DST:概念化,数据策划,写作 - 原始草稿,写作 - 评论和编辑; GBC:概念化,方法,软件,正式分析,可视化,数据策划,写作 - 原始草稿,写作 - 评论和编辑;监督,资金收购资金GBC得到了圣路易斯华盛顿大学的Mallinckrodt放射学研究所以及美国国立卫生研究院K01AG083230的支持。利益冲突作者没有利益冲突来宣布
量子信号处理(QSP)是一个框架,被证明可以统一和简化大量已知的量子算法,并发现新的算法。QSP允许人们使用多项式转换嵌入给定单位中的信号。表征可以通过QSP协议来实现哪些多项式是该技术功能的重要组成部分,尽管在单变量信号的情况下,这种表征既可以理解,却尚不清楚当信号是矢量时,可以构建哪些多元多样性,而不是标量。这项工作使用了与文献中的形式略有不同的形式主义,并利用它来找到可分解性的更简单条件以及足够的条件 - 首先是我们所知的最好的条件,这是在量子信号处理中(通常是不均匀的)多变量多态度证明的。
摘要。遗传学的一个基本目标是确定遗传变异与性状的相关性,通常使用全基因组关联(GWA)研究结果的回归结果。重要的方法论挑战是考虑到GWA效应估计的通货膨胀,并同时研究多个特征。我们利用这两个挑战的机器学习方法,开发了一种称为ML-MAGE的计算高效方法。首先,我们缩小了使用神经网络在变体之间非独立引起的GWA效应大小的通胀。然后,我们通过变异推断在多个性状之间群集变体关联。我们将通过神经网络收缩的性能与正则回归和绘制映射进行了比较,这两种方法用于解决膨胀效应,但处理不同大小的焦点区域的变体。我们的神经网络收缩在近似模拟数据中的真实效应大小方面优于两种方法。我们的无限混合聚类方法提供了一种灵活的,数据驱动的方式,可区分不同类型的关联(特征特异性,跨性状或虚假),基于其正则效应。聚类也会产生更高的精度和回忆,以区分模拟中的基因级关联。我们证明了ML-MAGE在英国生物库中的两个定量性状和两个二元性状的关联分析中的应用(英国500,000名居民的遗传和表型数据)。我们从单特征富集测试中鉴定出的相关基因与已知特征相关的生物学过程重叠。除特定特定的关联外,ML-mages还标识了几种具有共享多特征关联的变体,提示了假定的共享遗传结构。
在本文中,我们开发了一个新的多元分布,该分布适用于计数数据,称为树p´olya拆分。该类是由沿固定分区树的单变量分布和单数多变量分布的组合而产生的。已知的分布,包括Dirichlet-Multinomial,广义的Dirichlet-Multinomial和Dirichlet-Tree多项式,是此类中的特殊情况。正如我们将要证明的那样,这些分布是灵活的,可以在观测水平上建模复杂的依赖性结构(正,负或空)。具体来说,我们通过主要关注边缘分布,段落矩和依赖性结构(协方差和相关性)来介绍树p´olya分裂分布的理论特性。A dataset of abundance of Trichoptera is used, on one hand, as a benchmark to illustrate the theoretical properties developed in this article, and on the other hand, to demonstrate the interest of these types of models, notably by comparing them to other approaches for fitting multivariate data, such as the Poisson-lognormal model in ecology or singular multivariate distributions used in microbiome.
这篇主要的研究论文是由Uwindsor奖学金的论文,论文和主要论文免费提供给您的。已被Uwindsor的奖学金授权管理人纳入主要论文。有关更多信息,请联系schoolship@uwindsor.ca。
背景和目的。在医学成像中,群体研究必须克服个体之间存在的差异,以识别可用于诊断目的的不变图像特征。在功能性神经成像中,识别在群体水平上成立的神经编码原理的一个有吸引力的解决方案是受试者间模式分析,即从来自多个受试者的数据中学习预测模型并评估其对新受试者的泛化性能。尽管近年来它越来越受欢迎,但由于文献中明显缺乏正式定义,其广泛采用仍然受到阻碍。在本文中,我们精确介绍了针对功能性神经成像的多变量组分析的受试者间模式分析的第一个原则性形式化。方法。我们建议将受试者间模式分析构建为多源传导传递问题,从而将其置于几个定义明确的机器学习设置中并拓宽可用算法的范围。我们描述了两组使用几个开放数据集的受试者间大脑解码实验:一项涉及 16 名受试者的脑磁图研究和一项涉及 100 名受试者的功能性磁共振成像范例。我们通过进行模型比较来评估我们框架的相关性,其中一个大脑解码模型利用我们的形式化,而其他则不利用。结果。第一组实验证明了使用受试者标准化的大脑解码器与使用其他标准化方案的最先进模型相比具有优越性,证明了我们形式化的传导和多源组件的兴趣第二组实验定量表明,即使经过这样的转换,大脑解码器也更难以推广到新参与者而不是来自训练阶段可用的参与者的新数据,从而凸显了需要克服的转移差距。结论。本文将受试者间模式分析的第一个形式化描述为多源传导迁移学习问题。我们利用几个互补的功能性神经成像数据集上的概念验证实验证明了这种形式化的附加价值。这项工作将有助于推广功能性神经成像人群研究的受试者间模式分析,并为未来的方法创新铺平道路。
考虑到由于过度捕捞而导致的过度开发股票的关键问题,建立了欧盟的数据收集框架(DCF)。在DCF中,成员国收集和分析与可持续渔业管理相关的数据。为了评估渔业的地位,有必要将捕鱼机队分为车队。但是,当前的DCF分割主要基于技术血管参数,例如容器长度和主要的渔具,通常不能准确地代表船舶的捕鱼活动。为了解决这个问题,我们开发了一种替代的车队细分方法,该方法提供了更现实的捕鱼活动概述。这种方法利用了多元统计数据,并与机器学习技术一起进行自动化。将这种方法应用于二十年的德国渔业数据,与DCF方法相比,该数据集具有较少段的数据集,DCF方法更贴近实际捕鱼策略。对当前和新型分割方案计算的生物库存健康指标的比较表明,当前方案通常会错过依靠过度开发的股票的细分市场迹象。应用的机器学习技术显示出较高的分类精度,错误分类很少见,并且仅发生在具有重叠捕获组合物的段中。由于机器学习几乎可以完美地分配给修订后的细分市场,因此我们希望成功实施该协议以供未来的车队SEG进行。此方法非常适合数据收集和分析程序,并且可以用作标准工具。因此,这种新颖的方法可以有助于改善捕鱼机队的分析和政策建议,以提供更好的渔业管理。
本研究采用数据驱动的方法来研究物理系统振动,重点关注两个主要方面:使用变异自动编码器(VAE)生成物理数据(即数据“相似”与通过现实世界过程获得的使用变压器,以便使用体内稀疏传感器(观察者)中的信息在时间空间中连续预测柔性身体非平稳振动(2D时间序)。 VAE经过从作者进行的实验中收集的涡旋诱导振动(VIV)数据进行训练,然后负责生成类似于实验的合成VIV数据。 然后使用合成数据来训练一个变压器结构,其目标是使用稀疏观测值不断预测时间空间的振动。 针对实际实验测试了变压器(从未见过实际数据),并将其性能与对实际数据训练的相同体系结构进行了比较。 这样做,VAE的能力生成保留其培训数据内在属性的数据(即) 评估身体)。 最终提出了变压器体系结构,LSTM和DNN的预测性能之间的比较。使用变压器,以便使用体内稀疏传感器(观察者)中的信息在时间空间中连续预测柔性身体非平稳振动(2D时间序)。VAE经过从作者进行的实验中收集的涡旋诱导振动(VIV)数据进行训练,然后负责生成类似于实验的合成VIV数据。然后使用合成数据来训练一个变压器结构,其目标是使用稀疏观测值不断预测时间空间的振动。针对实际实验测试了变压器(从未见过实际数据),并将其性能与对实际数据训练的相同体系结构进行了比较。这样做,VAE的能力生成保留其培训数据内在属性的数据(即身体)。最终提出了变压器体系结构,LSTM和DNN的预测性能之间的比较。
这是一篇在接受后经过改进的文章的 PDF 文件,例如添加了封面和元数据,以及格式化以提高可读性,但它还不是最终的记录版本。此版本在以最终形式发布之前将经过额外的文字编辑、排版和审查,但我们提供此版本是为了让文章尽早可见。请注意,在制作过程中,可能会发现可能影响内容的错误,并且适用于期刊的所有法律免责声明均适用。
基于数值天气预测模型多个运行的集合天气预报通常显示系统错误,需要后处理以获得可靠的预测。在许多实际应用中,对多元依赖性进行建模至关重要,并且已经提出了多种多元后处理方法,其中首先在每个边距中首先在每个边距中分别进行后处理,然后通过COPULAS恢复多元依赖性。这些两步方法具有共同的关键局限性,特别是在建模依赖项中包含其他预测因子的困难。我们提出了一种基于生成机器学习来应对这些挑战的新型多元后处理方法。在这类新的非参数数据驱动的分布回归模型中,来自多元预测分布的样本是直接作为生成神经网络的输出而获得的。生成模型是通过优化适当的评分规则来训练的,该规则衡量生成的数据和观察到的数据之间的差异,条件是外源输入变量。我们的方法不需要对单变量分布或多元依赖性的参数假设,并且允许对任意预测变量进行分配。在两个关于德国气象站的多元温度和风速预测的案例研究中,我们的生成模型对最先进的方法显示出显着改善,尤其是改善了空间依赖性的表示。