David Donoho,“数据科学50年”“……机器学习取得成功的那些领域本质上是系统地应用CTF(常见任务框架)的领域。”
全球对初级卫生保健 (PHC) 的愿景是,人们在一生中定期获得优质综合服务。然而,情况并非如此,尤其是在低收入和中等收入国家,许多人只有在紧急需要时才使用正规医疗系统。然而,由于基础设施障碍、医疗服务提供者严重短缺和医疗质量低下,即使是偶发性护理也几乎不可能实现。人工智能和机器学习 (AI/ML) 可以帮助我们彻底改变当前的医疗保健现实,将其转变为持续医疗保健的愿景,促进个人保持持续健康状态。AI/ML 可以为个人提供精准建议,将患者从医疗服务的被动接受者转变为自身护理的积极参与者。通过考虑每个人,AI/ML 还可以确保整个人群的公平覆盖,并在个人健康、基因组数据、公共卫生和环境因素之间进行持续的数据交换。在实现 PHC 愿景的过程中,AI/ML 面临的最大挑战是向全球公民灌输一种责任感,让他们认识到健康数据对全球有益,同时优先保护个人拥有的受保护数据集。只有当个人开始采取集体方式处理健康数据,将思维模式转向预防目标时,AI/ML 在 PHC 中的潜力才会实现。除非我们克服这一挑战,否则全球社会将无法实现摆脱临时、被动的卫生系统文化的范式转变。
摘要:缺少值的存在减少了机器学习模型在训练阶段学习的知识量,从而对分类精度产生了负面影响。为了应对这一挑战,我们介绍了支持向量机(SVM)回归的使用来推出丢失值。此外,我们提出了一个两级分类过程,以减少错误的分类数量。我们对提出方法的评估是使用PIMA印度数据集进行糖尿病分类的。我们比较了五种不同的机器学习模型的性能:天真的贝叶斯(NB),支持向量机(SVM),K-Nearest邻居(KNN),随机森林(RF)和线性回归(LR)。我们的实验结果表明,SVM分类器的精度最高为94.89%。RF分类器的精度最高(98.80%),而SVM分类器的召回率最高(85.48%)。NB模型的F1得分最高(95.59%)。我们提出的方法通过解决数据集中缺失值的问题来在早期阶段检测糖尿病提供了有希望的解决方案。我们的结果表明,使用SVM回归和两级分类过程可以显着提高糖尿病分类的机器学习模型的性能。这项工作为糖尿病研究领域提供了宝贵的贡献,并突出了解决机器学习应用中缺失值的重要性。
本文档描述了供应链温室气体排放因子v1.2 NAICS-6美国商品数据集。数据集由2017年版本的北美工业分类系统(NAICS)定义的1,016个美国商品的温室气(GHG)排放因子(因素)组成。这些因素是用代表2019年的温室气体排放数据构建的。。每个记录包括三个因子类型,如先前的发行版中:无边距的供应链排放(SEF),供应链排放的边距(MEF)和带有边缘的供应链排放(SEF+MEF)。一组因子提供了使用100年全球变暖潜能来计算当量的所有温室气体的kg二氧化碳等效物(CO2E)。在此数据集中,每个商品都有一个SEF,MEF和SEF+MEF。其他因素数据集提供了每种商品每美元发出的独特温室气的kg,而无需计算CO2E。所有因素分母中的美元都在2021美元中使用购买者价格。
基础模型通过利用其预先训练的代表来捕获语音信号中的情感模式,在语音情感识别(SER)中表现出了巨大的希望。为了进一步提高各种语言和领域的SER性能,我们提出了一种新颖的方法。首先,我们收集了Emoset ++,这是一个全面的多语言,多种文化的语音情感语料库,具有37个数据集,150,907个类型,总持续时间为119.5小时。第二,我们介绍了exhubert,这是Hubert的增强版本,它是通过骨架扩展和对E Mo s et ++进行微调实现的。我们将每个编码器层及其权重填充,然后冻结第一个重复,集成了零零的线性层并跳过连接以保持功能并确保其适应性的能力,以便随后进行微调。我们在看不见的数据集上的评估显示了Exhubert的功效,为各种SER任务设定了新的基准标记。模型和有关E Mo S et ++的详细信息:https://huggingface.co/amiriparian/exhubert。索引术语:情感计算,语音情感识别,变形金刚,深度学习
情感计算是现代人机交互(HCI)中最重要的研究领域之一。情感计算的目标是研究和开发能够识别、解释、处理和模拟人类情感的理论、方法和系统。情感识别作为情感计算的一个分支,旨在启发机器/计算机自动分析人类情感,已受到各领域研究人员的广泛关注。人类通常通过整合感知到的面部表情、语音语调、言语内容、行为或生理特征信息来观察和理解一个人的情绪状态。为了模仿人类的情感观察方式,研究人员一直致力于通过融合两种或多种模态信息来构建多模态情感识别模型。本文从多模态数据集、数据预处理、单模态特征提取和多模态信息融合方法的角度,对近几十年来多模态情感识别进行了全面的回顾。此外,还指出并讨论了该主题面临的挑战和未来的研究方向。本评论的主要目的是总结最近出现的大量关于多模态情绪识别的研究,并为相关领域的研究人员提供潜在指导,以了解多模态情绪识别的流程和主流方法。
我们介绍了当前和未来的预计天气文件的前所未有的数据集,用于在全球10个气候区域分发的15个主要城市建立模拟。数据集包括环境空气温度,相对湿度,大气压,直接和弥漫性太阳辐照度以及小时分辨率下的风速,这是进行建筑模拟所需的必不可少的气候元素。数据集包含Energy Plus天气文件(EPW)格式(EPW)格式的典型和极端天气年份,以及三个时期的逗号分隔价值(CSV)格式的多年预测:历史(2001- 2020年),未来的中期(2041-2060)(2041-2060),以及未来的长期(2081-2100)。数据集是从一个区域气候模型的预测中生成的,这些模型是使用每个城市的多年观察数据对其进行偏差校正的。所使用的方法使数据集成为第一个在极端温度的频率,持续时间和幅度中纳入未来气候中复杂变化的数据集。这些数据集在IEA EBC附件80“建筑物的弹性冷却”中创建,可以用于不同类型的建筑适应和弹性研究,以进行气候变化和热浪。
虽然最小化原则要求为实现目标而选择的方法尽可能高效利用数据,但它并没有规定明确的阈值,也不禁止收集大型数据集。另一方面,CNIL 要求在开始收集之前尽可能地预测数据收集并识别必要的数据,以便只处理对人工智能系统设计绝对必要的数据。在这方面,遵守最小化原则的条件已经明确:深度学习方法必须保留在没有更经济的替代方案的情况下使用,并且必须得到证明。同样,需要使用特别识别类型的数据(例如视频或照片)的解决方案必须是实现目标所必需的。
摘要 - 从尖端的超级计算机中获得支持极大的科学模拟,气候研究在过去几十年中取得了显着发展。,在有效地存储和传输大规模的气候数据之间,出现了新的关键挑战。在本文中,我们开发了CLIZ,这是一种有效的在线错误控制有损压缩方法,具有优化的数据预测和对气候数据集跨各种气候模型的编码方法。一方面,我们探索了如何利用气候数据集的特定属性(例如蒙版信息,维度置换/融合和数据周期性模式)以提高数据预测准确性。另一方面,Cliz采用了一种新型的多霍夫曼编码方法,可以显着提高编码效率。因此显着提高了压缩比。我们根据具有不同模型的多个实地世界气候数据集评估了CLIZ与许多其他最先进的错误控制损耗压缩机(包括SZ3,ZFP,SPERR和QOZ)。实验表明,Cliz在气候数据集上的表现优于第二好的压缩机(SZ3,SPERR或QOZ1.1)的压缩比的压缩率高20%-200%。cliz可以将两个远程Globus终点之间的数据传输成本显着降低32%-38%。索引术语 - 错误控制的损耗压缩,气候数据集,分布式数据存储库/数据库
先天性心脏病是最常见的胎儿异常和先天缺陷。尽管确定了影响其发作的众多风险因素,但对不同人群中其起源和管理的全面了解仍然有限。机器学习的最新进展证明了利用患者数据以实现早期先天性心脏病检测的潜力。在过去的七年中,研究人员提出了各种数据驱动和算法解决方案,以应对这一挑战。本文介绍了使用机器学习对聚集心脏病识别的系统综述,对2018年至2024年之间发表的432份参考文献进行了荟萃分析。对74项学术作品的详细研究突出了关键因素,包括数据库,算法,应用和解决方案。此外,调查概述了机器学习专家使用的数据集用于先天性心脏病识别。使用系统的文学审查方法,本研究确定了将机器学习应用于先天性心脏病的关键挑战和机会。