摘要 - 在机器人技术和自动化等许多现实世界中,高度要求注册。注册在某种程度上挑战,因为获得的数据通常很吵,并且有很多异常值。此外,在许多实际应用中,一个点集(PS)通常仅涵盖另一个PS的部分区域。因此,大多数现有的注册算法无法保证理论融合。本文介绍了一种新颖,健壮和准确的三维(3D)刚性点集(PSR)方法,该方法是通过将最先进的(SOTA)贝叶斯相干点漂移(BCPD)理论推广到场景中来实现的,以使高维点集(PSS)位于AniSAlIniSAIS噪声中。高维点集通常由位置向量和正常向量组成。一方面,使用正常向量,提出的方法对噪声和离群值更为强大,并且可以更准确地找到点对应关系。另一方面,将注册纳入BCPD框架将保证该算法的理论收敛。我们在本文中的贡献是三倍。首先,将两个一般PS与正常向量对齐的问题纳入了变异的贝叶斯推理框架中,该框架可以通过概括BCPD方法来解决,同时考虑了各向异性位置噪声。第二,算法迭代期间的更新参数以封闭形式或迭代解决方案给出。第三,进行了广泛的实验,以验证提出的方法及其对BCPD的显着改进。
图1:A:Majiq使用剪接图(由局部剪接变化(LSV)组成)量化剪接。LSV定义为一组进入或从参考外显子出发的连接。对于每个结,Majiq估计在(PSI或ψ)中剪接的百分比,这是一个连接用法的度量。b:Majiq-临床检测两种类型的异常值,离群LSV(OLSV)和私有LSV(PLSV)。OLSV是异常值,其中患者和对照之间的剪接图是相同的,但是PSI却不同。plsv是患者独有的剪接变体,在控制集中最小示例(用户定义,默认情况1)中包含。c:Majiq-Clin作为来自患者和对照组的输入RNA-seq数据以及GFF3注释。然后,Majiq-build为每个基因构建一个剪接图并进行混杂校正。PLSV。clin然后为每个患者创建组合剪接图和对照组,并使用majiq-drigant量化LSV。clin然后向临床医生输出候选LSV和基因列表,按类型(PLSV,OLSV)和ψ-GAP订购。d:与1、10、50个线程的运行时和内存使用情况比较。顶行:LeafCutterMD使用默认的BAM-to-gunc步骤(无与伦比)运行。中间行:与上面相同,但内部脚本添加到并行化叶cuttermd bam-to-gunc(虚线)。
白质病变 (WML) 是多种脑部疾病的根源,而自动 WML 分割对于评估自然病程和临床干预措施(包括药物研发)的有效性至关重要。尽管最近的研究在 WML 分割方面取得了巨大进展,但准确检测疾病早期出现的细微 WML 仍然特别具有挑战性。在这里,我们提出了一种使用强度标准化技术、灰度共生矩阵 (GLCM) 嵌入聚类技术和随机森林 (RF) 分类器自动分割轻度 WML 负荷的方法,以提取纹理特征并识别特定于真正 WML 的形态。我们通过局部离群值因子 (LOF) 算法精确定义它们的边界,该算法通过相对于其邻居的局部密度偏差来识别边缘像素。该自动化方法已在 32 名人类受试者身上进行了验证,结果显示,通过类内相关性 (ICC = 0.881,95% CI 0.769, 0.941) 和皮尔逊相关性 (r = 0.895,p 值 < 0.001),与神经放射科医生的手动描绘具有很强的一致性和相关性(排除一个异常值),并且在 MICCAI 大挑战赛中定义的六个既定关键指标中的五个方面优于三种领先算法(修剪均值异常值检测、病变预测算法和 SALEM-LS)。通过促进对细微 WML 的更精确分割,该方法可以实现更早的诊断和干预。
长期以来,两个显着的限制一直阻碍了最佳运输方法与机器学习的相关性。首先,O(n 3)基于标准样本求解器的计算成本(在n个样品的批次上使用时)是过于刺激的。第二,质量保护约束使OT求解器在实践中过于刚性:因为它们必须匹配两种措施的所有点,因此离群值可能会大大影响其输出。最近的作品量已经解决了这些计算和建模的局限性,但导致了两种单独的方法菌株:虽然熵正则化大大改善了计算前景,但最近的O(N)线性低率溶剂溶液的最新OF-(N)线性低率溶解度却保持了进一步扩展OT的承诺。在建模的灵活性方面,由于OT的不平衡变体可以惩罚其边际偏离源和目标分布指定的耦合的耦合,因此可以对熵正则化的批量保护的刚度进行刚性。本文的目的是合并这两种菌株,即低级别和不平衡,以实现既可以扩展又相反的求解器的承诺。我们提出了自定义算法,以实现这些扩展问题,以解决线性的OT问题及其融合的Gromov-Wasserstein概括,并证明了它们与具有挑战性的空间转录组学匹配问题的实际相关性。这些算法是在OTT-JAX工具箱中实现的[Cuturi等。,2022]。
医疗保健中的联邦学习(FL)患有非相同分布的(非IID)数据,从而影响模型收敛和性能。虽然现有的非IID问题解决方案通常不会量化联邦客户之间的非IID性质程度,但评估它可以改善培训经验和成果,尤其是在不熟悉数据集的现实世界中。本文提出了一种实用的非IID评估方法,用于医疗分割问题,强调了其在佛罗里达州的重要性。我们提出了一种简单而有效的解决方案,该解决方案利用了医疗图像的嵌入空间和对其元数据计算的统计测量结果。我们的方法是为医学成像而设计的,并集成到联邦平均值中,通过降低最遥远的客户的贡献,将其视为离群值,从而改善了模型的概括。此外,它通过引入客户的基于距离的聚类来增强模型个性化。据我们所知,这种方法是第一个使用基于距离的技术来为医学成像域内非IID问题提供实际解决方案的方法。此外,我们验证了三个公共FL成像放射学数据集的方法(Fets(Pati等人,2021),前列腺(Liu等人,2020b),(Liu等人,2020a)和Fed-Kits2019(Terrail等人,2022)))在各种放射学成像方案中证明其有效性。关键字:联合学习,非IID数据,个性化,概括,医学细分,医学成像。
糖尿病是人类已知的最古老的疾病之一,可以追溯到古埃及。这种疾病是一种慢性代谢疾病,由于年度患者的稳定增长,全球医疗保健额的负担很大。令人担忧的是,糖尿病不仅会影响人口老龄化,还会影响儿童。控制这个问题很普遍,因为疾病会导致许多健康并发症。随着进化的发生,人类开始使用医疗保健系统对计算机技术进行整体技术。人工智能的利用有助于医疗保健在诊断糖尿病患者,更好的医疗保健服务和更偏心的情况下更有效。在人工智能的高级数据挖掘技术中,堆叠是糖尿病领域中最突出的方法之一。因此,本研究选择研究堆叠合奏的潜力。这项研究的目的是降低堆叠固有的高复杂性,因为此问题有助于较长的训练时间,并减少糖尿病数据中的异常值以提高分类性能。在解决这一问题时,引入了一种新型的机器学习方法,称为“堆叠递归特征消除 - 隔离森林”进行预测。使用递归功能消除堆叠的应用是为糖尿病诊断设计有效的模型,同时使用较少的功能作为资源。此方法还融合了将隔离林作为一个离群移除方法的利用。研究使用准确性,精度,召回,F1测量,训练时间和标准偏差指标来识别分类性能。该提出的方法获得了PIMA印第安人糖尿病的准确度为79.077%,糖尿病预测数据集获得了97.446%的精度,超过了许多现有方法并证明了糖尿病领域的有效性。
作者乔恩·施罗德(Jon Schroeder),美国环境保护署(EPA),华盛顿特区致谢EPA愿意感谢所有为本报告提供数据的设施运营商。这些人不仅提供了数据,而且在许多情况下,他们还花了一些时间与EPA交谈并澄清提供的数据。EPA极大地赞赏他们的所有努力。如果没有宝贵的意见,就无法生成此报告。我们希望本报告中提供的信息对所有设施运营商和行业都有用。以下人员通过在调查设计和测试,数据分析或报告评论方面的协助下为该报告做出了贡献:Chris Carusiello,Lana Suarez,Melissa Pennington,Nancy Abrams,Ksenija Janjic和Juliana Beecher。文档审查该文档的技术同行评审由:Alexandra Stern博士提供。美国EPA Beau Hoffman技术经理研究与开发办公室,转换R&D生物能源技术办公室,美国能源质量保证EPA EPA对本报告中用于生成信息的数据和计算进行了严格的质量保证审查。检查了所有关键数据点的离群值,对单位进行了评估以确保准确性,并将特定的数据点比较某些条件的测试(例如,报告的容量大于所报道的已处理的原料量)。在许多情况下,用假设纠正了异常,这些假设将进一步规定。本报告中提到的公司未经美国EPA认证或批准。免责声明仅出于信息目的提供厌氧消化设施及其位置。EPA不能保证此信息的准确性或完整性。
机器学习算法在依靠时间序列数据(例如能量预测,环境监控和电信等时间序列数据)方面表现出显着的成功。随着时间序列数据的越来越多的流行率,有一个越来越多的授权可以用于预测任务的准确和广义模型。培训这种模型是一个高度迭代的过程,需要对时间序列数据和机器学习算法有深刻的了解。我们演示了Gizaml,这是一种基于元学习的框架,专门针对自动化算法选择和用于预测时间序列的超参数调整。gizaml主要包括两个关键阶段:数据和特征工程阶段,以及建议和优化阶段。在数据和功能工程阶段中,GizAML对数据集进行重新启动,以获取均匀的时间间隔,处理离群值并自动提取各种与时间序列相关的功能。在推荐和优化阶段,Gizaml采用了一种元模型,该元模型提出了机器学习管道配置的实例化,这些配置预计将在新型数据集中表现出很强的表现。这些配置温暖启动了采用有效的贝叶斯选择方法的优化阶段。元模型采用大型语言模型(LLM),用于生成数据集表示的嵌入代表向量。Gizaml使用9种不同的回归机学习算法和每种不同的超参数配置。此外,Gizaml利用新的运行来不断提高对未来时间序列预测任务的元模型建议的性能和鲁棒性。我们的演示方案表明,Gizaml的表现优于当前最新的开源自动化机器学习框架。
HSS.ID.A.1表示具有实际数字行(点图,直方图和盒子图)上的图的数据。HSS.ID.A.2使用适合数据分布形状的统计信息,以比较两个或更多不同的数据集的中心(中位,平均值)和差异(四分之一间范围,标准偏差)。HSS.ID.A.3解释在数据集的背景下形状,中心和传播的差异,这考虑了极端数据点(离群值)的可能影响。HSS.ID.B.5以两种方式汇总两个类别的分类数据。在数据上下文(包括关节,边际和条件相对频率)中解释相对频率。认识到数据中可能的关联和趋势。HSS.ID.B.6表示散点图上两个定量变量的数据,并描述变量如何相关。HSS.IC.A.1将统计数据理解为基于该人群的随机样本来推断人口参数的过程。HSS.IC.A.2决定指定的模型是否与给定数据生成过程(例如使用仿真)的结果一致。例如,一个模型说旋转硬币以0.5的概率向上掉下来。连续5个尾巴的结果会导致您质疑该模型吗?HSS.IC.B.3认识到样本调查,实验和观察性研究之间的目的和差异;说明随机化与每个关系的关系。HSS.IC.B.4使用样本调查中的数据来估计人口均值或比例;通过使用仿真模型进行随机采样来开发误差范围。HSS.IC.B.5使用随机实验中的数据比较两种治疗方法;使用模拟来决定参数之间的差异是否显着。HSS.IC.B.6根据数据评估报告。HSS.CP.A.1使用结果的特征(或类别)将事件描述为样本空间的子集(结果集),或者作为其他事件的工会,相交或协同(“或”,“,”和“,”,“不”)。理解/目标学生将理解:
Walaa nasr-el-Dein Gad博士(1),Taghred Moukhtar Dr.(2)博士学位在会计学院Ain Shams University。摘要目的 - 本研究的目的是研究区块链技术将如何影响埃及企业在2018年至2022年之间的内部控制。设计/方法论/方法 - 为了实现这一主要目标,我们通过分析埃及证券交易所在2018年至2022年的年度报告中列出的非金融公司的内容采用了定量的方法论方法。此期间框架包括COVID-19期。此外,除了离群值外,最终样本由20家具有96个观察结果和测试的公司组成,已将A用作单位根测试和回归测试。的发现:通常,分析表明,内部控制质量受区块链技术的影响很大,因为t检验概率为0.000,低于0.05,并且R 2调整为96.6%,因此,当前的研究表明,促进埃及对埃及区块链技术的认识,以通过金融报告提高内部控制质量。研究局限性/含义:该研究存在局限性,因为它在埃及缺乏应用区块链,重点介绍了非金融埃及公司的年度报告。关键字:区块链技术,内部控制质量,埃及非金融公司。实践含义:这项研究的发现可能有助于阐明在埃及行业的非金融公司中使用区块链的重要性,包括众多感兴趣的人,包括经理,投资者和学者。独创性/价值:这项研究旨在建立一个新的研究领域,因为在发展中国家,很少有研究向链链技术对埃及非金融公司内部控制质量的影响提供了适用的证据。