癌症的数学建模并不新鲜[47],然而这个领域在世纪之交才真正爆发。但在那时,绝大多数模型旨在揭示、阐明或解释与肿瘤生长、血管生成和侵袭有关的一些机制[22]。它们与实验数据的联系很少,而且主要涉及生长动力学。这些模型逐渐演变成与两大进步有关:第一点是机器计算能力的提高,使得人们能够以数值实验的方式进行模拟;第二点是成像技术的进步,使得人们能够更广泛地获取数据。随着时间的推移,模型逐渐变得更加“信息丰富”,这意味着它们整合了实验测量的参数,并根据实验(体内或体外)观察进行验证。虽然模型开发人员主要位于数学、计算或工程部门,但现在在医院基础设施的核心位置也并不罕见。如今,模型在癌症领域被广泛用于实现四个主要目标:改善诊断、改善治疗、识别和开发新药以及带来有关疾病发展的新知识。这些目标有助于使模型更接近临床。模型是在系统肿瘤学 [ 61 ] 的背景下开发的,该系统 - 即系统生物学 [ 69 ] - 提供了一个全面的框架,可以在其中研究癌症,以真正理解和联系其从基因到细胞的多个方面
虽然通过正则化程序进行特征选择的问题在监督学习环境中引起了极大关注,并在过去二十年中产生了大量文献,但直到很晚且相对较新的时候,它才有效地出现在无监督框架中。第一种方法是基于模型的,这些方法自然适合包括套索(L 1)和相关惩罚,并且可以引用 [1] 来了解 L 1 惩罚的 EM 程序(混合由方差相等的高斯分布组成)或 [2] 来详细回顾基于模型的高维数据聚类。在更通用的框架中,没有对底层分布做出任何假设,在 [3] 中引入了具有 L 1 惩罚的稀疏 k 均值算法,后来扩展到每个聚类内的特征选择,并通过一致性结果得到加强,[4] [5] [6]。我们还要提到,最近在 [7] 中引入了稀疏 k 均值算法对重叠变量组的推广。话虽如此,上面引用的所有方法本质上都是为数值数据设计的,而真实数据通常由数值和分类特征组成。上面的一些作者触及了分类特征的问题,提到了使用虚拟变量进行转换使其数字化的可能性。但是,这个处理步骤并不是那么直接,因为零一向量上的欧几里得距离并不特别适合与数值变量上的欧几里得距离混合。其他作者
在此表中出现的消费者能源提供给您的电力的燃料混合数据包括来自密歇根州,伊利诺伊州,印第安纳州,俄亥俄州和威斯康星州的区域平均燃料混合数据,作为消费者能源购买的某些电力的实际燃料混合物的代理,因为购买了所购买的电力的实际燃料混合物可能无法辨别。购买的电力占消费者能源在相关时期提供的电力的15.4%。
考虑另一种情况,例如全球石油和天然气行业的工业方面。当混合数据(例如来自油井的数据、地震数据、运输数据或钻井生产数据)没有统一标记时,可能会给资本项目带来高昂的复杂性。以一家运营数千口天然气井的公司为例,当需要升级其监控和数据采集系统(基于专有数据通信格式)时,新聘请的供应商必须重新创建数据通信格式,从而花费该公司 180,000 美元。2 标准化数据标记将消除此类情况。
考虑不同的场景,例如全球石油和天然气行业的工业方面。当混合数据(例如来自油井、地震数据、运输数据或钻井生产数据)没有统一标记时,可能会给资本项目带来昂贵的复杂性。对于运营数千口气井的公司,当需要升级其监控和数据采集系统(基于专有数据通信格式)时,新聘请的供应商必须重新创建数据通信格式,从而花费公司 180,000 美元。2 标准化数据标记将消除此类情况。
摘要:三维数字技术在考古站点的维护和监测中很重要。本文着重于结合陆地激光扫描和无人驾驶飞机(Phantom 4 Pro)摄影测量法,以建立三维模型和相关的Beaufort Castle(南黎巴嫩Arnoun)的数字文档。两种技术之间的总体差异足以生成收敛数据。因此,将陆地激光扫描和Phantom 4摄影测量数据对准并在反射后合并为兼容扩展。基于混合数据云的三维(3D)模型,具有平面和垂直几何形状。这项研究证明了在3D数字文档中使用陆地激光扫描和摄影测量法的潜力,以及对黎巴嫩考古遗址的空间分析。
数字双胞胎(DTS)用于物理系统的开发,以实现人工智能(AI),尤其是用于来自不同来源的综合数据或创建计算效果,减少尺寸的模型的数据。的确,即使在非常不同的应用程序域中,Twinning也采用了常见技术,例如使用混合数据(即来自基于物理学的模型和传感器)的模型订单降低和模型化(即数据)。尽管这种明显的普遍性,但当前的开发实践是临时的,使AI管道的设计用于数字孪晶复杂且耗时。在这里,我们建议函数+数据流(FDF),该域特异性语言(DSL)描述了DTS中的AI管道。FDF旨在促进数字双胞胎的设计和验证。特别是,FDF将功能视为一流的公民,从而有效地操纵了使用AI学习的模型。我们说明了FDF对两种混凝土用例的好处:预测结构的塑性应变并建模轴承的电磁行为。
将生成模型适应持续学习(又称cgl)最近引起了对计算机视觉的极大兴趣(Huang等,2024; Belouadah等,2021)。CGL的臭名昭著的问题是灾难性的遗忘,这反映了这样一个事实,即当发电机学习新任务时,它会忘记其以前学习的任务(Parisi等,2019)。主要的CGL方法是生成性重播(GR)(Shin等,2017; Van de Ven等,2020),该方法在混合数据集中重新训练了一个新的发电机,该数据集合了从先前的生成器和当前任务的真实样品产生的伪样品。一些扩展的CGL方法仅在当前任务数据上训练发电机,例如CEWC(Seff等,2017)和Mgan(Wu等,2018; Liu等,2020)等。然而,这些方法主要在条件生成的对抗网络(CGAN)上进行了研究,并且它们对于单个增量任务是可行的,而对于多个顺序任务,CGAN可以诱导不稳定的训练,从而导致下质量的样品(CONG等,2020)。
在混合数据采样的动态条件相关性 (DCC-MIDAS) 框架中,我们仔细研究了 Covid-19 扩散后宏观金融环境与二氧化碳排放之间的相关性。主要的原始想法是,经济的封锁将减轻人类活动对环境造成的部分温室气体负担。一方面,我们捕获了约翰霍普金斯冠状病毒中心记录的美国 Covid-19 确诊病例、死亡和康复病例之间的时变相关性;另一方面,我们捕获了美国能源信息署记录的美国总工业生产指数和化石燃料二氧化碳总排放量。美国股市的高频数据包括来自牛津曼量化金融研究所的五分钟实际波动率。 DCC-MIDAS 方法表明,新冠肺炎确诊病例和死亡人数对宏观金融变量和二氧化碳排放产生负面影响。我们量化了二氧化碳排放与新冠肺炎确诊病例或新冠肺炎死亡人数随时间变化的相关性,结果急剧下降了 -15% 至 -30%。主要结论是,我们跟踪相关性并揭示了疫情背景下的衰退前景。
自我监管的多模式对比度学习(SMCL)明显地通过使视觉和语言方式结盟现代视觉预训练(VLP)模型。由于网络收获的文本图像对中的噪音,因此在计算成本和数据效率低下方面,SMCL的培训数据量扩大了相当大的obs。为了提高VLP的数据效率,我们提出了文本感知图像混合(TIMIX),该图像混合(TIMIX)将基于混合的数据增强技术集成到SMCL中,从而在没有显着增加计算开销的情况下进行了显着的性能改进。我们从共同信息(MI)的角度提供了TIMIX的理论分析,表明跨模式对比度学习的混合数据样本隐含地充当对比损失的常规器。实验结果表明,即使在针对现有方法的基准测试时,Timix在下游任务上也表现出可比的性能,即使减少了训练数据和较短的训练时间。这项工作在经验上和理论上证明了数据混合对于数据有效和计算可行的VLP的潜力,从而使更广泛的VLP模型在实际情况下受益。我们的代码可在https://github.com/chaoyajiang/timix/tree/main上使用。