摘要 - 移动电话的价格是市场上移动产品成功的最重要因素之一。根据其功能预测手机价格的回归方法可以帮助公司确定新手机的价格。这项研究研究了可显着预测价格并开发模型以使用两种方法预测价格的变量,即线性回归和随机森林方法。该实验使用的数据从Kaggle下载,其中包含145个手机价格和功能。发现,线性回归和随机森林算法可以提供相对良好的手机预测,其MAPE评分低于10%和R2得分以上95%以上。随机森林方法预测价格略好于线性回归。
由于其内在特性,DNA分子通常沿线性序列表示表现出远距离相互作用。因此,当建模DNA序列对于获得更准确的基于序列的推断很重要。最近为此目的开发了许多深度学习方法,但它们仍然遭受两个主要问题的困扰。首先,现有的方法只能handle短DNA片段,从而失去更长的范围相互作用。第二,当前方法需要大量的监督标签,同时错过序列中的大多数订单信息。因此,有必要开发有效的深度神经网络建模框架,以提取广泛的上下文信息,以实现基于序列的推理任务。我们的新框架(名为Revolution)将完整的DNA序列作为输入,无需任何凝结,可以对高达10KBP的DNA序列进行准确的预测。在变异效应预测中,我们的方法平均在49种人体组织中增加了接收器工作特征(AUROC)下的面积19.61%。革命还通过预测开放染色质区域(OCR)的平均为2.36%的AUROC来提高植物序列的作用。可以在https:// github上自由访问数据,模型和代码。com/wiedersehne/Revolution-dnapretraining。
排干的湿地可能成为温室气体排放的主要来源,但这些湿地的排水网络大部分都未绘制地图,需要更好的地图来帮助森林生产并更好地了解气候后果。我们开发了一种在基于 LiDAR 扫描的高分辨率数字高程模型中检测沟渠的方法。使用数字地形指数的阈值方法可用于检测沟渠。但是,单个阈值通常无法捕捉景观的变化,并且会产生许多误报和漏报。我们假设,通过使用监督学习结合数字地形指数,我们可以在景观尺度上改善沟渠检测。除了数字地形指数之外,还可以通过转换数据以包含相邻单元来生成其他特征,以便更好地预测沟渠。使用随机森林分类器来定位沟渠,并对其概率输出进行处理以消除噪音,然后进行二值化以产生最终的沟渠预测。评估图之间的 Cohen's Kappa 指数的置信区间范围为 [0.655 , 0.781],置信度为 95%。研究表明,使用机器学习结合一系列数字地形指数的信息,可以提供一种有效的景观尺度自动沟渠检测技术,有助于实际的森林管理和应对气候变化。
排干的湿地是温室气体排放的主要来源,但这些湿地的排水网络大部分都未绘制地图,需要更好的地图来帮助森林生产并更好地了解气候后果。我们开发了一种在基于 LiDAR 扫描的高分辨率数字高程模型中检测沟渠的方法。使用数字地形指数的阈值方法可用于检测沟渠。但是,单一阈值通常无法捕捉景观的变化,并且会产生许多假阳性和假阴性。我们假设,通过使用监督学习结合数字地形指数,我们可以在景观尺度上改善沟渠检测。除了数字地形指数外,还可以通过转换数据以包含相邻单元来生成其他特征,以便更好地预测沟渠。随机森林分类器用于定位沟渠,并处理其概率输出以消除噪声,并进行二值化以产生最终的沟渠预测。评估图之间的 Cohen's Kappa 指数的置信区间为 [0.655 , 0.781],置信度为 95%。研究表明,使用机器学习结合一系列数字地形指数的信息,可以提供一种有效的景观尺度自动沟渠检测技术,有助于实际的森林管理和应对气候变化。
本研究应用自适应混合独立成分分析 (AMICA) 来学习一组 ICA 模型,每个模型都通过为每个已识别的成分过程拟合分布模型进行优化,同时最大化多通道 EEG 数据集某些时间点子集内的成分过程独立性。在这里,我们将 20 模型 AMICA 分解应用于长时间(1-2 小时)、高密度(128 通道)EEG 数据,这些数据是在参与者使用引导想象来想象刺激 15 种特定情绪体验的情境时记录的。这些分解倾向于返回识别单一情绪想象期间的时空 EEG 模式或状态的模型。模型概率转变反映了情绪想象过程中 EEG 动态的时间过程,而这种过程因情绪而异。用于解释想象的“悲伤”和“快乐”的模型之间的转换更加突然并且与参与者的报告更加一致,而用于想象的“满足”的转换延伸到相邻的“放松”期。大脑可定位的独立成分过程 (IC) 的空间分布在参与者中 (跨情绪) 比在情绪 (跨参与者) 中更相似。在参与者中,在左侧前额叶、后扣带皮层、右侧岛叶、双侧感觉运动、运动前区和联想视觉皮层中或附近发现了情绪想象与放松之间 IC 空间分布 (即偶极子密度) 存在差异的大脑区域。在积极情绪和消极情绪之间没有发现偶极子密度的差异。高密度 EEG 动态变化的 AMICA 模型可能允许在情绪体验过程中基于数据洞察大脑动态,可能提高基于 EEG 的情绪解码的性能并增进我们对情绪的理解。
多年来,抑制导致癌症的蛋白激酶 (PK) 一直是癌症治疗的重要课题。到目前为止,FDA 批准的药物已经针对了 530 多种 PK 中的近 8%,大约 150 种蛋白激酶抑制剂 (PKI) 已经在临床试验中进行了测试。我们提出了一种基于自然语言处理和机器学习的方法来研究 PK 和癌症之间的关系,预测抑制哪些 PK 可以有效治疗某种癌症。我们的方法根据 PubMed 摘要中的单词和概念邻域将 PK 和癌症表示为具有语义意义的 100 维向量。我们使用 ClinicalTrials.gov 中有关 I-IV 期试验的信息来构建随机森林分类的训练集。我们使用历史数据的结果显示,可以提前数年准确预测 PK 与特定癌症之间的关联。我们的工具可用于预测抑制 PK 对特定癌症的相关性,并支持设计有针对性的临床试验,以发现用于癌症治疗的新型 PKI。
1 浙江大学控制科学与工程学院智能系统与控制研究所,杭州 310027,中华人民共和国 2 香港理工大学应用数学系,香港特别行政区九龙红磡,中华人民共和国 3 香港理工大学深圳研究院,深圳 518057,中华人民共和国 4 同济大学控制科学与工程系,上海 201804,中华人民共和国 5 同济大学上海智能科学技术研究所,上海 201804,中华人民共和国 6 同济大学高等研究院,上海 200092,中华人民共和国 ∗ 通讯作者。
最新脑机接口的目的是通过为每个受试者定制识别器来实现准确的情绪识别。在机器学习领域,基于图的半监督学习 (GSSL) 因其直观且在情绪识别方面具有良好的学习性能而受到越来越多的关注。然而,现有的 GSSL 方法对噪声或基于异常脑电图 (EEG) 的数据很敏感或不够稳健,因为每个受试者在相同场景中可能呈现噪声或异常 EEG 模式。为了解决这个问题,在本文中,我们发明了一种基于 EEG 的情绪识别的可能性聚类促进半监督学习方法。具体而言,它限制每个实例具有与其局部加权均值相同的标签成员值,以提高识别方法的可靠性。另外,在目标函数中引入了关于模糊熵的正则化项,通过增加样本判别信息量来增强隶属函数的泛化能力,提高了方法对噪声和异常值的鲁棒性。在三个真实数据集(即DEAP、SEED和SEED-IV)上的大量实验结果表明,所提方法提高了基于脑电信号的情绪识别的可靠性和鲁棒性。
用于大脑计算机界面(BCI)分类的深神经网络(DNN)通常会在跨多种环境进行训练时学习一般特征,因此可以将这些特征调整为特定环境。尽管在这种方法中找到了一些成功,但我们建议这种解释是有限的,替代方案将更好地利用新(公开)可用的大规模脑电图(EEG)数据集。我们考虑如何适应用于语言建模(LM)的技术和体系结构,这些技术和架构似乎能够以相同的静脉为DNN摄取大量数据来开发脑电图建模。我们特别适应了一种有效用于自动语音识别的方法,该方法(与LMS)类似地使用自我监督的训练目标来学习原始数据信号的压缩表示。适应脑电图后,我们发现单个预训练的模型能够建模具有不同硬件记录的完全新颖的RAW EEG序列,并且不同的主题执行不同的任务。此外,该模型的内部表示和整个体系结构都可以对各种下游BCI和EEG分类任务进行精确调整,在更多的任务(睡眠阶段分类)中表现优于先前的工作。
