材料建模一直是一个具有挑战性的问题。此类建模中出现了许多复杂性,例如非线性材料行为、复杂物理和大变形,以及多物理现象。此外,材料通常会表现出丰富的厚度响应行为,这阻碍了使用经典简化方法,并且在使用经典模拟技术时需要极其精细的网格。模型简化技术似乎是减少计算时间的合适解决方案。许多应用和材料成型过程都受益于模型简化技术提供的优势,包括固体变形、传热和流体流动。此外,数据驱动建模的最新发展为材料建模开辟了新的可能性。事实上,使用数据建模对模拟进行校正或更新导致了所谓的“数字孪生”模型的形成,从而通过数据驱动建模改进了模拟。通过使用机器学习算法,也可以对当前模型不准确的材料进行数据驱动建模。因此,在材料制造过程和材料建模框架内有效构建数字孪生的问题如今已成为一个越来越受关注的话题。数字孪生技术的最新进展是使用实验结果来校正模拟,同时也在无法通过实验定义基本事实时将其变化纳入正在运行的模拟中。本研究主题讨论了模型简化技术、数据驱动建模和数字孪生技术的最新发展,以及它们在材料建模和材料成型过程中的应用。在 Victor Champaney 等人的论文中,作者解决了非平凡插值的问题,例如,当曲线中的临界点(例如弹塑性转变点)移动位置时就会出现这种问题。为了找到该问题的有效解决方案,本文展示了几种方法,结合了模型简化技术和代理建模。此外,还展示了通过为预测曲线提供统计界限来量化和传播不确定性的替代品。本文展示了几种应用,以经典材料力学问题为例。
摘要 由于化学空间的复杂性,从头分子设计是药物发现中的一个关键挑战。随着分子数据集的可用性和机器学习的进步,许多深度生成模型被提出来生成具有所需特性的新分子。然而,现有的大多数模型只关注分子分布学习和基于靶标的分子设计,从而阻碍了它们在实际应用中的潜力。在药物发现中,表型分子设计比基于靶标的分子设计具有优势,特别是在同类首个药物发现中。在这项工作中,我们提出了第一个针对表型分子设计,特别是基于基因表达的分子设计的深度图生成模型(FAME)。FAME 利用条件变分自动编码器框架从基因表达谱中学习条件分布生成分子。然而,由于分子空间的复杂性和基因表达数据中的噪声现象,这种分布很难学习。为了解决这些问题,首先提出了一种采用对比目标函数的基因表达去噪 (GED) 模型来降低基因表达数据中的噪声。然后设计 FAME 将分子视为片段序列并学习以自回归的方式生成这些片段。通过利用这种基于片段的生成策略和去噪的基因表达谱,FAME 可以生成具有高有效率和所需生物活性的新型分子。实验结果表明,FAME 优于现有的表型分子设计方法,包括基于 SMILES 和基于图的深度生成模型。此外,我们研究中提出的降低基因表达数据噪声的有效机制可应用于一般的组学数据建模,以促进表型药物的发现。关键词:片段、条件生成、基因表达、变分自动编码器、对比学习。
∠ Aura Brasiliani (2024) “ 对人工智能未来预测的分析 ” ∠ Maria Grazia Biasco (2024) “ 群落生态学的统计模型:Xylella fastidiosa 昆虫媒介分布研究 ” ∠ Federico Mirulla (2024) “ 网络建模作为国际关系研究的工具 ” ∠ Enrico Scquizzato (2024) “ 大型语言模型在自动票证分类中的应用:Pat SRL 案例研究 ” ∠ Federica Bessega (2024) “ 大型零售贸易生产力分析:非参数分层模型的应用 ” ∠ Enrico Ceccolini (2024) “ 控制图和功能模型在汽车底盘焊接过程统计监控中的应用 ” [共同联系人:Christian Capezza] ∠ Sara Zanette (2024) “五人制足球的比赛分析:从视频到统计分析” ∠ Paolo Dallavalle (2023) “ 死亡率曲线研究:通过张量分解进行分析” ∠ Gianluca Tori (2023) “ 监督或结构化主题建模:对 Spotify 上的播客的分析” ∠ Maria Gallo (2023) “ 可再生能源资源优化管理模型:对葡萄牙案例的分析” ∠ Angela Andrigo (2023) “ GlobalMonitor 心理健康调查:通过离散数据模型进行分析” ∠ Virginia Murru (2023) “ 社会网络演化研究:通过贝叶斯网络模型进行分析” ∠ Giulia Pacchetti (2022) “ 通过函数模型分析篮球三分球的轨迹” ∠ Alessio Piraccini (2022)云端大数据分析:概述和应用 ∠ Marco Shehata (2022) “点过程分析的统计模型:在具有历史意义的米兰德比中的应用” ∠ Chiara Bellio (2022) “通过时间网络模型分析犯罪组织” ∠ Riccardo Fassina (2022) “使用张量的横截面数据建模:一种非参数贝叶斯方法” ∠ Francesca Stecca (2022) “TikTok 上的哈希劫持:使用潜在类别模型分析意大利内容” ∠ Francesca Nardone (2021) “美国总统辩论和推特:2020 年主角的网络数据模型”
抽象的在线购物商人将进行一系列营销活动以增加客户,但是在许多情况下,大多数新客户不会重复购买,这不利于商人的长期利益。因此,对于商人而言,针对更有可能回购的用户很重要,因为这可以降低营销成本并提高投资回报率。基于在线购物网站提供的数据集,本文对数据进行采矿和探索性分析,利用特征工程方法以及使用LightGBM,Logistic,logistic,XGBoost进行机器学习建模的建模分析。同时,进行参数优化和模型评估验证,最后,比较分析以Light GBM作为最佳预测模型,将为在线购物商店的运营提供有效的营销决策。关键字:数据分析,数据建模,机器学习,在线购物,重复购买预测1。简介商人有时会在特定日期发布大规模促销或发行优惠券以吸引消费者。但是,吸引的许多买家都是一次消费者。从长远来看,这些促销活动可能对销售业绩的增长无济于事,因此为了解决这个问题,商人需要确定可以将哪种类型的消费者转换为重复买家。通过分析和定位这些潜在的忠实客户并进行精确的营销,商人可以大大降低促销成本并增加投资回报率(ROI)。众所周知,在线广告时,很难准确地针对客户,尤其是针对新消费者。随着大数据技术的发展和电子商务平台的持续增长,用户的兴趣和爱好等个人信息以及行为信息(例如日常购物)已经累积在主要的电子商务平台的数据库中,逐渐形成了大量数据。已经发现,通过挖掘有关在线购物行为的大数据,可以提前预测用户的重复购买行为,甚至可以专门预测每个用户都有重复购买意图的商人产品的产品。
微生物水质是水安全的组成部分,与人类健康,食品安全和生态系统服务直接相关。但是,特别是病原体数据,甚至是粪便指标数据(例如,e。大肠杆菌),稀疏而分散,它们在不同的水体(例如地下水)和不同社会经济背景(例如低收入国家和中等收入国家)中的可用性是不公平的。迫切需要评估和整理世界各地的微生物数据,以评估全球水质,水处理和健康风险的全球状况,因为时间已经过去了,需要达到可持续发展目标(SDG)6到2030年。本文的总体目的是说明建立全球稳健且有用的微生物水质数据库和财团的需求和拥护者,这将有助于实现SDG6。我们总结了有关微生物水质的可用数据和现有数据库,讨论用于生成微生物水质的新数据的方法,并确定使用微生物数据来支持决策制定的模型和分析工具。本评论确定了非洲的全局数据集(7个数据库)和区域数据集(3个数据基础),澳大利亚/新西兰(6个数据库),亚洲(3个数据库)(3个数据库),欧洲(7个数据库),北美(12个数据库)(12个数据库)和南美(1个数据库)。低收入国家和中等收入国家缺少数据。提高了实验室能力(由于COVID-19的大流行),分子工具可以鉴定潜在的污染源并直接监测病原体。应该利用这些机会来实现世界各地的可持续发展目标6。模型和分析工具可以通过对缺乏数据的地理空间和时间推论来支持微生物水质评估。一种基因组学,信息技术(IT)和数据革命正在我们身上,并为开发用于实时记录,自动化分析,标准化和微生物数据建模的软件和设备的前所未有的机会,以增强全球水质的了解。
交叉数据测试对于检查机器学习(ML)模型的性能至关重要。但是,大多数关于转录组和临床数据建模的研究仅进行了数据内测试。还不清楚归一化和非差异表达基因(NDEG)是否可以改善ML的跨数据库建模性能。因此,我们旨在了解归一化,NDEG和数据源是否与ML在跨数据库测试中的性能有关。使用了TCGA和ONCOSG中肺腺癌病例共享的转录组和临床数据。仅使用转录组数据就达到了最佳的跨数据库ML性能,并且在统计学上比使用转录组和临床数据更好。最佳平衡精度(BA),曲线下的面积(AUC)和在TCGA上的ML算法培训中的精度明显高于ONCOSG的测试,而在ONCOSG上进行了测试并在TCGA上进行了测试(所有人的P <0.05)。归一化和NDEG在两个数据集中大大改善了数据集中的ML性能,但在跨数据库测试中却没有。引人注目的是,单独对ONCOSG的转录组数据进行建模优于建模转录组和临床数据,而TCGA中包括临床数据的转录组和临床数据并没有显着影响ML性能,这表明TCGA中转录量数据的临床数据值有限或转录量的倒数影响。在数据内测试中的性能提高更为明显。在比较的六个ML模型中,支持矢量机是在数据集和跨数据库测试中最常见的表现最常见的。因此,我们的数据显示了数据源,归一化和NDEG在建模转录组和临床数据中与数据集和跨数据库ML性能相关。
数据分析 • 调查公司数据需求,并应用数据分析、数据建模和质量保证技术,以建立、修改或维护数据结构及其相关组件(实体描述、关系描述、属性定义)。• 为数据库设计人员和其他使用数据结构和相关组件的人员提供建议和指导。分析 • 应用各种分析和可视化技术,适当时咨询专家,并注意技术的局限性。系统设计 • 推荐/设计满足业务需求的系统结构和工具,并考虑目标环境、性能安全要求和现有系统。• 提供拟议应用程序的技术可视化,供客户批准和系统开发人员执行。• 将逻辑设计转化为物理设计,并生成详细的设计文档。• 将工作映射到用户规范并消除错误和偏离规范以实现用户友好的流程。数据库设计 • 开发和维护数据库概念、对象和数据建模技术以及设计原则的专业知识,以及数据库架构、软件和设施的详细知识。• 分析数据需求以建立、修改或维护对象/数据模型。• 评估潜在解决方案,演示、安装和调试选定的产品。用户体验分析 • 分析定性数据(例如来自现场访问)并以可用于推动设计的方式呈现数据(例如角色、红色路线、用户旅程地图)。• 描述系统的用户/利益相关者目标,并确定受影响利益相关者群体的角色。• 定义系统在总体使用体验方面所需的行为和性能(例如以使用场景的形式),解决用户需求之间的潜在冲突(例如准确性和速度之间的冲突)。• 指定系统所需可用性的可衡量标准。用户体验设计 • 跨数字资产(网络和其他数字渠道)开发视觉用户体验。• 作为团队的一员,在创意指导下将数字概念转化为一致的图形表示。• 支持从客户和用户那里获取业务需求,并将需求转化为设计简介。• 产生可访问的用户体验、原型和最终资产。
本研究旨在描述反调节激素失调如何导致胰岛素抵抗并可能导致糖尿病。因此,我们使用群体模型分析研究了非糖尿病个体的胰岛素敏感性与葡萄糖和胰岛素依赖性胰高血糖素、促肾上腺皮质激素 (ACTH) 和皮质醇分泌之间的关联。我们汇总了高胰岛素-低血糖钳夹数据进行分析,其中包括 52 名胰岛素抵抗范围广泛的个体(反映在 20-60 分钟的葡萄糖输注率;20-60 分钟的 GIR)。胰高血糖素分泌受葡萄糖抑制,胰岛素抑制程度较小。20-60 分钟的 GIR 和 BMI 被确定为胰岛素对胰高血糖素影响的预测因子。在血糖正常(5 mmol/L)时,在胰岛素敏感性最高和最低分位数的个体中,当胰岛素浓度为 16.3 和 43.4 µU/mL 时,胰高血糖素被抑制了 90%。胰高血糖素分泌的胰岛素抵抗解释了 GIR 20-60 分钟低个体空腹胰高血糖素升高的原因。ACTH 分泌受葡萄糖抑制,而不受胰岛素影响。20-60 分钟 GIR 作为葡萄糖依赖性 ACTH 分泌的预测指标优于其他指标,对于胰岛素敏感和胰岛素抵抗个体,当葡萄糖浓度分别为 3.1 和 3.5 mmol/L 时,ACTH 分泌被抑制了 90%。这种差异可能看起来很小,但对于胰岛素抵抗的个体,抑制范围会转移到血糖正常,因此,当血糖下降时,ACTH/皮质醇反应会更早出现,而且更强烈。根据汇总葡萄糖钳数据建模,胰岛素抵抗与胰高血糖素普遍升高和皮质醇轴对低血糖的反应增强有关,因此随着时间的推移,这两种激素途径都可能导致血糖紊乱,甚至可能导致 2 型糖尿病。
人的大脑是复杂的神经生物学系统的核心,其中神经元,电路和子系统在策划行为和认知方面进行了研究。神经科学的最新研究表明,大脑区域之间的相互作用是神经发育和疾病分析的关键驱动因素[1,2]。使用结构或功能连通性映射人脑的连接组已成为神经成像分析最普遍的范式之一。重新说,从地理深度学习中动机的图形神经网络(GNN)由于其建模复杂的网络数据建模而引起了广泛的兴趣。在文献中,功能和结构联系被广泛认为是用于大脑调查的有价值的信息资源[3]。但是,他们主要在特定的私人数据集上对其建议的模型进行实验。由于道德问题,通常无法公开使用的数据集,并且未披露成像预处理的详细信息,从而使其他研究人员无法重新调查实验。目前尚未进行有关如何设计有效GNN用于脑网络分析的系统研究。为了弥合这一差距,我们提出了BraingB,这是一种用于GNNS的大脑网络分析的基准,并于2023年在IEEE-TMI上发表[4]。1。我们在同类和模式的四个数据集上进行实验,并建议一组在大脑网络上进行有效GNN设计的食谱。基于这四个维度的不同组合作为基准,我们的贡献是四个方面:•建立了一个统一,模块化,可扩展和可重复的框架,用于使用GNN进行大脑网络分析,以实现可重复性。它旨在通过可访问的数据集,标准设置和基线来启用公平评估,以促进计算神经科学和其他相关社区中的协作环境。•我们总结了功能和结构性大脑网络的预处理和施工管道,以弥合神经影像学和ML社区之间的差距。•我们将基于GNN的大脑网络分析的感兴趣的设计空间分解为四个模块:(1)节点feapers,(b)消息通讯机制,(c)注意机制和(d)汇总策略。
尽管企业努力提高数据驱动能力,但一些关于企业的最基本问题(例如企业有多少客户)仍然难以回答。对数据的信任是企业做出数据驱动的业务决策的基础。问题不仅在于能够通过结合来自多个业务实体、地区、部门和应用程序的数据来准确计算企业有多少客户,还在于确保这些不同的实体、地区、部门和应用程序使用相同的客户定义。ISG Research 将主数据管理定义为建立和保护企业使用的基础参考数据的实践,以提供可在整个组织内共享的一致实体列表,包括各方(客户或员工)、地点(地址或地区)和事物(产品、资产、金融工具)等类别。主数据管理包括数据验证、匹配和合并重复记录以及使用相关信息丰富数据。MDM 的另一个重要组成部分是数据建模,它记录数据元素之间的关系。这会导致生成数据目录条目或企业词汇表信息,这些信息可在整个企业以及合作伙伴和供应商之间共享。创建一个“单一事实版本”,提供对客户、产品、供应商或员工的一致定义,是许多企业面临的长期挑战。Ventana Research 数据治理基准研究中,一半的参与者表示,对数据定义的分歧是有效管理数据的主要问题。主数据管理产品使企业能够确保数据的准确性、完整性和一致性,以实现运营业务目标。虽然 MDM 是一个专门的业务流程,但它也是更大的数据治理战略的一个重要方面,该战略包括管理访问和编辑主数据的政策和规则。企业必须能够信任数据,才能实现运营效率和分析洞察力。鉴于企业需要处理的数据源数量和范围不断增加,确保用于业务决策的数据的完整性可能很困难。Ventana Research 数据治理基准研究中,超过 80% 的参与者使用 MDM 技术进行数据治理,而那些使用 MDM 技术的人对数据的使用更有信心。近四分之三使用 MDM 进行数据治理的企业对企业治理和管理整个业务数据的能力充满信心,而没有使用 MDM 进行数据治理的企业只有 27% 有信心。