a b str a ct -t h e i m b a l a l a n ce d a t a a t a a是一个sig n i f ic a n t c h a lle n ge n ge n ge n ge n e n ge n e rc hers a rc hers i n s up er v ise d iSe d m a c h i c h i n e n e l a r n i r n i n g g。cu rre n t d a t a m i n n i n g a lgorit h m s a re n o n ot e ff ecti v e f或p Rocessi n g i m b a l a l a l a l a l a l a n ce d d a t a t a t a。在f a ct,t h是p o b le b le m re du ces cl a ssi f ic a tio a tio a cc u r a c y c y c e e c e e s u s e p e t h e p e p ectio n o f m i n o f m i n orit cl a sses is sses is i n a cc u r r a t tet h e cl a ssi f ic a tio n o f i m b a l a l a n ce d a t a t a a is t h e m a j或c h a lle n ge t h a t h a t h a t h a t h a t a s s cecei d sig n i fic n i f ic n i f ic a n t a n t t te tio n tio n tio n tio n tio n。 T h ere f ore , T h e u se o f s a m p li n g tec hn i q u es to i m p ro v e cl a ssi f ic a tio n p er f or m a n ce h a s b ee n a sig n i f ic a n t co n si d er a tio n i n rel a te d wor k .在t h中是p a p er,a co m p a r a ti v e s ti ti o f si x d i ff er n t s a m p lgorit h m s是p er f或m e d。 t h e e m p lo d a lgorit h m s a lgorit he f o f o f o f o f o f o m d i ff erre n t s a m p e n t s a m p li n g tec hn i q u es:two a m p li n g a lgorit h m s a lgorit h m s a lgorit h m s a lgorit h m s a lgorit h m s a m p lgorit h m s,二,两个n o vers a m p li n g a nd und und und er s a m p li n g。T h e tec hn i q u es u se d i n o v ers a m p li n g a re r a nd o m o v ers a m p li n g a nd S M O T E , w h ile und er s a m p li n g tec hn i q u es a re r a nd o m und er s a m p li n g a nd a n e a r m iss .a m b i n a tio n o f o vers a m p li n g a nd und und und und und o n g t e a m p li n g tec hn i q u es是s m o t e t e t e t e t e t o t e k a a nd s m o t ee n。t h是co m p a r a ti v e st ud y a m s to e x a m i n e t h e i m p a ct o f t h e e e e e e e e e e e e e e e e e e e e e d s a m p li d s a m p li n g m et e e d o d。 lgorit h m s o n t h e p er f或m a n ce o f t h ree cl a ssi f iers:s vm,k nn,a nd logistic恢复。 C ross- v a li d a tio n e x p eri m e n ts o n 8 st a nd a r d d a t a sets s h ow t h a t t h e S M O T EE N s a m p li n g T h e a lgorit h m a c h ie v es sig n i f ic a n t i m p ro v e m e n ts co m p a re d wit h ot h er t y p ic a l a Lgorit H M S。
摘要 对极重采样旨在生成共轭点位于同一行的归一化图像。这一特性使得归一化影像对于自动影像匹配、空中三角测量、DEM 和正射影像生成以及立体观看等许多应用都十分重要。传统上,归一化过程的输入媒体是帧相机捕获的数字影像。这些影像可以通过扫描模拟照片获得,也可以直接由数码相机捕获。与模拟相机相比,当前的数码帧相机提供的图像格式更小。在这方面,线阵扫描仪正在成为二维数码帧相机的可行替代品。然而,线阵扫描仪的成像几何比帧相机更复杂。一般而言,线阵扫描仪的成像几何会产生非直线的对极线。此外,根据忠实描述成像过程的严格模型对捕获的场景进行对极重采样需要了解内部和外部传感器特性以及物体空间的数字高程模型 (DEM)。最近,平行投影已成为一种替代模型,用于近似具有窄视场角的高空扫描仪的成像几何。与严格模型相比,平行投影模型不需要
激光雷达(光检测和测距)技术有可能彻底改变自动化系统与其环境和用户的交互方式。当今行业中的大多数激光雷达系统都依赖于脉冲(或“飞行时间”)激光雷达,而这种激光雷达在深度分辨率方面已达到极限。相干激光雷达方案,例如调频连续波 (FMCW) 激光雷达,在实现高深度分辨率方面具有显著优势,但通常过于复杂、昂贵和/或体积太大,无法在消费行业中实施。FMCW 及其近亲扫频源光学相干断层扫描 (SS-OCT) 通常针对计量应用或医疗诊断,这些系统的成本很容易超过 30,000 美元。在本论文中,我介绍了我在芯片级光学和电子元件集成方面的工作,以应用于相干激光雷达技术。首先,我将总结将通常体积庞大的 FMCW 激光雷达控制系统集成到光电芯片堆栈上的工作。芯片堆栈由一个 SOI 硅光子芯片和一个标准 CMOS 芯片组成。该芯片用于成像系统,可在 30 厘米的距离内生成深度精度低至 10 微米的 3D 图像。其次,我将总结我在实施和分析一种新的 FMCW 激光雷达信号后处理方法方面的工作,称为“多同步重采样”(MK 重采样)。这涉及非线性信号处理方案下激光相位噪声的蒙特卡罗研究,因此我将展示随机模拟和实验结果,以证明新重采样方法的优势。QS 重采样有可能提高相干成像系统的采集率、精度、信噪比和动态深度范围。
很少有研究致力于了解亚马逊森林的数字地形模型 (DTM) 的创建。当使用机载激光扫描估算植被生物量时,DTM 具有特殊而重要的作用。我们研究了脉冲密度、空间分辨率、滤波算法、植被密度和坡度对 DTM 质量的影响。使用机载激光扫描测量了三个亚马逊森林地区,并根据随机重采样过程将每个原始点云的目标减少到每平方米 20、15、10、8、6、4、2、1、0.75、0.5 和 0.25 个脉冲。通过逐像素计算偏差并通过均方根误差 (RMSE) 进行汇总,将重采样云的 DTM 与原始 LiDAR 数据生成的参考 DTM 进行比较。还评估了重采样云的 DTM,考虑了与参考 DTM 的一致性水平。我们的研究表明,回波密度和水平分辨率之间存在明显的权衡。森林冠层密度越高,要求回波密度越高或 DTM 分辨率越低。
在这里,我们引入了一种改进的后处理方法T-MSD,旨在解决罕见事件对相关数据的影响,并增强估计扩散系数的统计可靠性。此方法包括两个部分:时间平均的MSD分析和Block JackKnife(BJ)重采样。使用深层势分子动力学(DPMD)模拟,我们证明了时间平均的MSD有效地减少了数据波动并实现了时间平移不变性,从而得出了扩散系数的更强大的估计值。据我们所知,尽管该方法已用于分析生物学和化学领域中的单个粒子跟踪[28,29],但它很少在固态离子学中应用。此外,BJ重采样通过明确考虑
成分。分数越高表示症状严重程度越高 (即越差)。误差线表示自举估计的置信区间。 (c) 与 LC1 相关的显著表面积、厚度、体积载荷(自举重采样和 FDR 校正 q<0.05 后)。 (d) 与 LC1 相关的显著 RSFC 载荷(自举重采样和 FDR 校正 q<0.05 后)。RSFC 载荷经过阈值处理,因此仅显示具有显著自举 Z 分数的网络内或网络间块。网络块遵循与 17 个 Yeo 网络 (Schaefer et al., 2018; Yeo et al., 2011) 和皮层下区域 (Fischl et al., 2002) 相关的颜色。弦图总结了网络内和网络间显著的 RSFC 载荷。有关更详细的网络可视化,另请参见图 1a。DorsAttn,背侧注意力; RSFC,静息状态功能连接;SalVentAttn,显著性/腹侧注意;SomMot,躯体感觉运动;TempPar,颞顶叶。
背景:及时准确的结果预测在指导急性缺血性卒中的临床决策中起着至关重要的作用。急性期后的早期病情恶化和严重程度是长期结果的决定因素。因此,预测早期结果在急性卒中管理中至关重要。然而,解释预测并将其转化为临床可解释的概念与预测本身一样重要。目的:这项工作专注于机器学习模型分析在预测缺血性卒中早期结果中的应用,并使用模型解释技巧来解释结果。方法:招募 2009 年在长庚医疗系统卒中登记处 (SRICHS) 登记的急性缺血性卒中患者,对两个主要结果进行机器学习预测:出院时的改良 Rankin 量表 (mRS) 和住院期间病情恶化。我们将 4 种机器学习模型,即支持向量机 (SVM)、随机森林 (RF)、轻梯度提升机 (LGBM) 和深度神经网络 (DNN) 与受试者工作特征曲线的曲线下面积 (AUC) 进行了比较。此外,3 种重采样方法,即随机欠采样(RUS)、随机过采样和合成少数过采样技术,处理了不平衡数据。模型基于特征重要性排序和 SHapley 加性解释(SHAP)进行解释。结果:RF 在两种结果中均表现良好(出院 mRS:平均 AUC 0.829,SD 0.018;院内恶化:原始数据上的平均 AUC 0.710,SD 0.023,对于不平衡数据,使用 RUS 重采样数据上的平均 AUC 0.728,SD 0.036)。此外,DNN 在预测未重采样数据的院内恶化方面优于其他模型(平均 AUC 0.732,SD 0.064)。总体而言,重采样对使用不平衡数据预测院内恶化的模型性能的改善有限。从美国国立卫生研究院卒中量表 (NIHSS) 获得的特征、白细胞分类计数和年龄是预测出院 mRS 的关键特征。相反,NIHSS 总分、初始血压、是否患有糖尿病以及血象特征是预测住院期间病情恶化的最重要特征。SHAP 摘要描述了特征值对每个结果预测的影响。结论:机器学习模型在预测早期卒中结果方面是可行的。丰富的特征库可以提高模型性能。初始神经系统水平和年龄决定了出院时的活动独立性。此外,
摘要:如今,由于每年损失的金额巨大,各种类型的欺诈交易都成为金融业关注的焦点。考虑到数字化时代的海量数据和银行欺诈的复杂性,手动分析欺诈交易是不可行的。在这种情况下,检测欺诈的问题可以通过机器学习算法来实现,因为它们能够在非常大的数据集中检测出微小的异常。这里出现的问题是数据集高度不平衡,这意味着非欺诈案例严重主导了欺诈案例。在本文中,我们将介绍三种处理不平衡数据集的方法:重采样方法(欠采样和过采样)、成本敏感训练和树算法(决策树、随机森林和朴素贝叶斯),强调了为什么在测量算法性能时不应在这种类型的数据集上使用接收者操作特性曲线 (ROC) 的想法。实验测试应用于 890,977 笔银行交易,以观察上述三种方法的性能指标。关键词:银行欺诈;机器学习算法;重采样;成本敏感训练;不平衡数据集。引用方式:Mînăstireanu, E.-A.,& Meşniţă, G. (2020)。信用卡欺诈检测中处理不平衡数据集的方法。大脑。人工智能和神经科学的广泛研究,11 (1),131-143。https://doi.org/10.18662/brain/11.1/19
本研究的目的是开发一个预测模型,利用来自小型企业的数据来提高业务运营规划的准确性。通过使用机器学习 (ML) 技术、特征扩展、重采样和组合技术,可以解决现有研究中存在的几个限制。然后,使用新颖的特征工程技术,我们可以找到 10 个新特征,这些新特征是从原始特征中衍生出来的,并通过它们之间的非线性关系自动构建,从而提高模型的准确性。最后,我们构建了一个基于规则的分类器,以高精度预测商店的收入。结果表明,所提出的方法为应用于中小型企业的 ML 研究开辟了新的可能性。
本研究的目的是开发一个预测模型,利用来自小型企业的数据来提高业务运营规划的准确性。通过使用机器学习 (ML) 技术、特征扩展、重采样和组合技术,可以解决现有研究中存在的几个限制。然后,使用新颖的特征工程技术,我们可以找到 10 个新特征,这些新特征是从原始特征中衍生出来的,并通过它们之间的非线性关系自动构建,从而提高模型的准确性。最后,我们构建了一个基于规则的分类器,以高精度预测商店的收入。结果表明,所提出的方法为应用于中小型企业的 ML 研究开辟了新的可能性。