这项工作旨在评估用于银河红移估计问题的光度法(高度理想化)数据集中的某些经典回归模型的性能。线性回归模型,多项式回归,决策树,随机森林和支持向量机经过训练和验证,最初是在训练样本中,与原始基本数据的5%相对应。接下来,在测试样本中评估了这些相同的模型,对应于其余95%的基数,从而允许调整后的模型概括的概括。此外,由于变量之间的高度相关性,主要组件分析技术(PCA)也用于降低系统维度。关键字:星系,光度法,回归,宇宙学,机器学习
摘要。连接脑模板 (CBT) 捕获给定脑连接组群中所有个体的共同特征,从而充当指纹。从脑图来自不同神经成像模式(例如功能和结构)和不同分辨率(即节点数)的群体中估计 CBT 仍然是一项艰巨的挑战。这种网络整合任务允许学习跨不同模式和分辨率的丰富且通用的脑连接表示。由此产生的 CBT 可大量用于生成全新的多模态脑连接组,这可以促进下游任务(例如脑状态分类)的学习。在这里,我们提出了多模态多分辨率脑图集成器网络(即 M2GraphIntegrator),这是第一个将给定连接组群映射到中心良好的 CBT 的多模态多分辨率图集成框架。 M2GraphIntegrator 首先利用特定于分辨率的图形自动编码器统一脑图分辨率。接下来,它将生成的固定大小的脑图集成到位于其种群中心的通用 CBT 中。为了保持种群多样性,我们进一步设计了一种新颖的基于聚类的训练样本选择策略,该策略利用最异构的训练样本。为了确保学习到的 CBT 的生物学健全性,我们提出了一种拓扑损失,以最小化真实脑图和学习到的 CBT 之间的拓扑差距。我们的实验表明,从单个 CBT 中,可以生成真实的连接组数据集,包括不同分辨率和模态的脑图。我们进一步证明,我们的框架在重建质量、增强任务、中心性和拓扑健全性方面明显优于基准。
图 6 示例性注意力矩阵,可视化三位参与者在收敛时的注意力得分(来自随机选择的训练样本)(值越亮表示注意力得分越高)。解码器中的时间步长在 y 轴上表示,编码器的时间步长在 x 轴上表示。对角线结构表明注意力得分在时间域上是很好地对齐的,例如输出中的后续步骤关注输入中的后续步骤。该图还表明,填充输入 sEEG 序列(语音规划和理解)可能是不必要的,因为没有太多注意力放在第一个和最后一个输入步骤上。
图 6 示例性注意力矩阵,可视化三位参与者在收敛时的注意力得分(来自随机选择的训练样本)(值越亮表示注意力得分越高)。解码器中的时间步长在 y 轴上表示,编码器的时间步长在 x 轴上表示。对角线结构表明注意力得分在时间域上是很好地对齐的,例如输出中的后续步骤关注输入中的后续步骤。该图还表明,填充输入 sEEG 序列(语音规划和理解)可能是不必要的,因为没有太多注意力放在第一个和最后一个输入步骤上。
●Breiman(2001)首先提出了随机森林算法,但基于1995年的Tim Kan Ho●RF采用了两种集合技术:首先是训练样本,以种植基于不同培训训练数据的树木森林。第二个是特征空间的子采样。●如果我选择变量的子集(例如x1, x3, x7) to create a split in a node of a decision tree, and another subset (x2, x4, x5, x7) to create a different one, there will be events that get classified in a different way by the two nodes ● Often there is a dominant variables that is used to decide the split, offsetting the power of the subdominant ones.rf通过减少不同树的相关性来避免该问题
本文提出了一种使用有符号累积分布变换 (SCDT) 对一维信号进行分类的新方法。所提出的方法利用 SCDT 的某些线性化特性,使问题在 SCDT 空间中更容易解决。该方法使用 SCDT 域中的最近子空间搜索技术来提供一种非迭代、有效且易于实现的分类算法。实验表明,所提出的技术在使用极少量训练样本的情况下优于最先进的神经网络,并且对模拟数据上的分布外示例也具有鲁棒性。我们还通过将所提出的技术应用于 ECG 分类问题来证明其在实际应用中的有效性。实现所提出的分类器的 Python 代码可以在 PyTransKit [1] 中找到。
在数据集中,目标是为机器学习模型提供足够的与要解决的问题相关的模式实例。例如,香蕉的外观可以添加到客户的订单中。训练样本中不应始终存在不相关的模式,例如香蕉始终位于图像边缘附近或白色背景下。为了提高模型的稳健性,建议改变光照条件;物体方向、位置和角度;相机角度/高度;以及物体本身的版本(例如,处于不同成熟阶段的香蕉),如果特性可以改变的话。如果变化不够,那么训练数据可能会过度拟合,以至于神经网络在识别训练数据方面非常有效,但无法推广到新数据。数据集应反映最终系统在实践中将看到的图像。
基于扩散的生成模型最近在语音增强(SE)方面获得了研究,为常规监督方法提供了替代方案。这些模型将干净的语音训练样本转化为高斯噪声,通常以嘈杂的语音为中心,随后学习了一个典型的模型以扭转这一过程,从而有条件地在嘈杂的语音上。与受监督的方法不同,基于生成的SE通常仅依赖于无监督的损失,这可能会导致条件嘈杂的语音效率较低。为了解决这个问题,我们提议以ℓ2的损失来增加原始的扩散训练目标,以测量地面真相清洁语音与每个扩散时间阶段的估计之间的差异。实验结果证明了我们提出的方法的有效性。
人们不断提出和评估各种用于分析机载和卫星图像的方法。在本文中,我们回顾了支持向量机 (SVM) 的遥感实现,这是一种很有前途的机器学习方法。由于近年来发表的著作数量呈指数级增长,因此这次回顾非常及时。SVM 在遥感领域特别有吸引力,因为它们即使在有限的训练样本下也能很好地概括,这是遥感应用的常见限制。但是,它们也存在参数分配问题,这会严重影响获得的结果。提供了一百多篇已发表著作(截至 2010 年 4 月)各种应用的实证结果摘要。我们希望这次调查将为 SVM 的未来应用和可能的算法增强领域提供指导。© 2010 国际摄影测量与遥感学会 (ISPRS)。由 Elsevier B.V. 出版。保留所有权利。