深度神经网络(DNN)一直处于机器学习(ML)和深度学习(DL)(DL)的最新突破的最前沿。dnns越来越多地用于各种任务,从对卫星图像的地球观察和分析到医学诊断和智能聊天机器人。在这些进步方面的主要贡献是培训数据,计算资源和框架的丰富性,可以在范式中有效地培训越来越多,更复杂的DNN,该范式被称为分布式DL,尤其是分布式培训,这是该博士学位的重点。在分布式培训中,数据和计算分布在几个工人中,而不是单主培训,其中数据和计算都驻留在单个工人上。在这种设置中,分布式培训可以帮助克服单主训练的局限性,例如内存限制,计算瓶颈和数据可用性。但是,分布式培训带来了许多需要仔细解决的挑战,以便具有有效利用它的系统。这些挑战包括但不限于工人中计算和数据的有效分布,Straggler工人在集群中的统计(与其他工人相比,在计算步骤中大大落后于工人),尤其是在同步执行的工作,以及工人之间的交流和同步。这意味着系统应在计算和数据维度上提供可伸缩性。另一方面,从编程和可用性的角度来看,使用分布式培训范式通常需要了解分布式计算原理和具有分布式和数据密集型计算框架的经验以及对单霍斯特培训使用的代码进行重大更改。此外,随着训练A DNN涉及几个步骤和阶段(例如,数据准备,超参数调整,模型培训等。),希望可以重复使用彼此不同步骤的计算结果(例如,在高参数调谐试验中学习的权重,以便改善训练时间,以便在高参数调整试验中学习的权重)。最后,当开发更大,更复杂的DNN时,我们还需要了解每个设计选择的贡献。本博士学位论文的贡献解决了上述挑战,并共同优化了大规模的DNN培训,使其更易于访问,高效和计算可持续性,同时又可以在ML/DL工作流中延长冗余,并为进行消水研究提供了有用的工具。
形式语言是建模和仿真的组成部分。他们允许将知识蒸馏成简明的模拟模型,可自动执行,解释和分析。但是,可以说最容易获得模型的方法是通过自然语言,这是计算机不容易解释的。在这里,我们评估了如何将大型语言模型(LLM)用于将自然语言形式化为模拟模型。现有研究仅使用非常大的LLM(例如商业GPT模型)进行探索,而无需微调模型权重。要缩小这一差距,我们展示了如何对开放量,7B参数Mistral模型进行微调,以将自然语言描述转化为特定于域语言的反应网络模型,从而提供自我托管,计算和内存有效的替代方案。为此,我们开发了一个合成数据代理,以作为微调和评估的基础。我们的量词评估表明,我们的微调Mistral模型可以恢复高达84的地面真相模拟模型。5%的案件。此外,我们的小规模用户研究展示了该模型在各个领域的一次性生成以及交互式建模的实际潜力。虽然有前途,但以当前形式,微型的小LLM无法赶上大型LLM。我们得出的结论是,需要更高质量的培训数据,并期望将来的小型和开源的LLM提供新的机会。
摘要当前,大多数本体论都是手动创建的,这是耗时且劳动力密集的。同时,大型语言模型(LLM)的高级功能已被证明在各个领域中有益,从而显着提高了文本处理和文本生成的效率。因此,本文着重于将LLMS用于本体学习。它使用手动本体构建方法作为促进本体学习LLM的基础。所提出的方法基于检索增强产生(RAG),并将其传递给LLM的查询基于手动本体论方法 - Lite本体论。已经对LLM的两种不同变体进行了实验,它们都以不同程度的程度证明了本体学学习的能力。这种方法显示了使用LLMS(半)自动化本体学习学习的方向的有希望的初始结果,并使没有先前领域专业知识的人的本体论施工过程更容易。最终的本体论是由域专家评估的,并根据定义的标准对其进行了排名。基于评估结果,最终的本体论可以用作基本版本,但是它需要域专家的进一步微调以确保其准确性和完整性。
2科学技术学院,Qaminis 3高级科学与技术研究院,Alqarayt摘要:人工智能(AI)和机器学习(ML)的迅速采用已经创造了对高质量标记数据的前所未有的需求。大规模数据标记是AI系统开发的关键组成部分,通常涉及来自不同人群的大量数据集,并使用自动化过程和人工劳动的结合进行了注释。但是,与这些实践相关的道德挑战引起了极大的关注。本文探讨了大规模数据标签和用法中的关键道德问题,重点关注四个关键领域:偏见,隐私,劳动实践和透明度。偏见是由注释者的固有主观性和许多数据集的不代表性产生的,这加剧了AI应用程序中不公平或歧视性结果的风险。侵犯隐私性侵犯敏感信息未经适当同意而使用,通常会挑战匿名技术的有效性。此外,对数据注释的众包劳动力的依赖引起了人们对工人剥削,低补偿和标记敏感或明确内容的心理损失的担忧。最后,数据收集和标签过程中缺乏透明度和问责制破坏了公共信任和道德标准。通过对现有实践的全面审查,本文重点介绍了现实世界中的案例研究和争议,包括偏见的数据集和侵犯隐私行为。当前的技术和政策驱动的解决方案(例如隐私的技术,劳动力改革和缓解偏见的算法)都经过了严格的研究。最后,本文讨论了按大规模实施这些解决方案并确定未来研究方向的挑战。通过解决这些问题,这项工作旨在在AI数据管理的生命周期中促进更公平,透明和道德实践。关键字:伦理AI,数据标记,机器学习中的偏见,AI隐私,众包数据注释,数据透明度,算法公平,负责任的AI实践,联邦学习,差异性学习,数据伦理,数据伦理,注释者,注释者,注释者单位,AI政,数据隐私法规,数据隐私规定,可持续的AI开发。
临床知识是从有关原因,预后,诊断和治疗疾病的研究中学到的信息的收集。这种类型的知识可以改善治愈性能并促进身体健康。随着大型语言模型(LLM)的出现,旨在将学术医学AI系统应用于现实世界中医学场景的医学机构(医学AI)已进入了一个新的发展时代,从而从学术和工业研究中获得了出色的著作,例如Doctorgpt和Pangus-Drug。但是,该领域缺乏对学术界和行业建立医疗AI系统的全面汇编和比较。因此,这项调查重点介绍了医疗AI系统的建筑范例,包括使用临床数据库,数据集,培训管道,整合医学知识图,系统应用程序和评估系统。我们希望这项调查可以帮助相关实践研究人员了解医疗保健各个领域的学术模型的当前表现,以及实施这些科学成就的潜在问题和未来的方向。
摘要:本文介绍了基于电容性变化的低成本和多触摸传感器的新设计和开发。这个新传感器非常灵活且易于制造,使其成为软机器人应用程序的适当选择。该传感器中使用的材料(导电墨水,有机硅和控制板)是便宜且在市场上很容易找到的。提出的传感器由不同层的晶圆,带有导电墨水的硅胶层和压力敏感的导电纸片制成。像E-Skin这样的先前方法可以测量像人体或纤维等导电物体的接触点或压力,而所提出的设计使传感器能够检测物体的接触点和施加力,而无需考虑对象的材料电导率。传感器可以同时检测五个多点触点。在存在噪声,增益变化和非线性的情况下,使用神经网络结构以可接受的精度来校准施加力。通过商业精确力传感器(ATI)实时测量的力与通过在两个电极层之间更改层的电容获得的产生的电压映射。最后,嵌入建议的触觉传感器的软机器人抓手被用来掌握具有位置和力反馈信号的物体。
背景:透明细胞肾细胞癌(CCRCC)是肾癌的普遍和侵略性亚型,通常与转移和复发有关。鉴定CCRCC进展涉及的关键基因对于改善治疗策略和患者预后至关重要。方法:我们进行了大规模基因组CRISPR筛选,以使用DEPMAP数据库识别对CCRCC进展至关重要的基因。为了发现和验证,我们整合了来自癌症基因组图集(TCGA),GEO和NJMU-CCRCC临床群体的多摩学数据。进行了生物信息学分析,包括差异表达,途径富集和蛋白质 - 蛋白质相互作用网络分析,以阐明生物学功能。为了验证我们的发现,我们采用了免疫组织化学,QRT-PCR和各种细胞分析来研究PRC1在CCRCC中的作用。结果:CRISPR筛选将PRC1确定为一个关键基因,从DEPMAP数据库中的CCRCC组织中显着过表达。升高的PRC1表达与整体生存率差,疾病特异性生存和无进展间隔有关。在CCRCC细胞系中的沉默PRC1抑制细胞增殖,迁移和菌落形成。功能富集分析表明,PRC1参与了基本过程,例如细胞周期调节,有丝分裂和细胞因子。另外,PRC1表达与Wnt/β-蛋白途径的激活相关,这表明PRC1在肿瘤进展中起关键作用。结论:PRC1成为CCRCC的有希望的生物标志物和治疗靶标。升高的PRC1表达与预后不良有关,其抑制作用抑制了CCRCC细胞的增殖和迁移。我们的发现强调了PRC1在CCRCC进展中的关键作用,并强调了进一步研究其分子机制和治疗潜力的必要性。
罕见的疾病由于其多种症状而经常出现微妙的症状以及其低患病率而引起了重大诊断挑战。基因组广泛的关联研究(GWAS)已经鉴定出遗传变异和疾病之间的关联,但是指出因果基因,特别是在单基因稀有疾病中,仍然很复杂。该项目利用大语言模型的力量来增强GWAS分析并改善罕见疾病的诊断。我们的方法探讨了两个关键目的:(1)给定一组通过GWAS鉴定的顶级病原基因候选者,预测与这些基因相关的可能条件,考虑它们的复杂相互作用和潜在的多源性效应,以及(2)开发LLM驱动的型框架,以使年龄较大的疾病,详细症状,临床诊断,临床诊断,临床上的疾病,概述了较高的诊断,以诊断为包括年龄的患者特征,并最大程度地诊断出临床,并诊断出临床,并诊断出临床,并诊断出临床,该临床的诊断。这种方法旨在提高诊断准确性,并减少罕见病患者诊断的时间。我们将使用已发表的稀有疾病案例研究来验证我们的模型,并将我们的性能与现有诊断方法进行比较。
摘要目的:癌细胞系的大量药物基因组学数据的快速积累为药物敏感性预测(DSP)提供了前所未有的机会,这是促进精度肿瘤学的关键先决条件。最近,生成的大语言模型(LLM)表明了自然语言处理领域(NLP)领域的各种任务的性能和概括。然而,药物基因组学数据的结构化格式对DSP中LLM的实用性提出了挑战。因此,这项研究的目的是多重的:适应结构化药物基因组学数据的及时工程,以优化LLM的DSP性能,评估LLM在现实世界DSP方案中的概括,并比较LLM的DSP性能与目前的Science-Science Baselines。方法:我们系统地研究了生成性预训练的变压器(GPT)作为四个公开基准药物基因组学数据集的DSP模型,这些模型由五种癌症组织类型的细胞系和肿瘤学和非综合药物进行分层。本质上,通过四个学习范式评估了GPT的预测格局在DSP任务中的有效性:零射击学习,几乎没有学习,微调和聚类预处理的嵌入。通过实施三个及时的模板(即指令,指导,预定,披肩)并将与药剂基因组相关的特征集成到提示中,为了促进GPT无缝处理结构化的药物基因组学数据,采用了域特异性新颖的及时工程。与最先进的DSP基准相比,GPT主张了卓越的F1性能我们验证了GPT在不同的现实世界DSP方案中的表现:跨组织概括,盲试和药物校园关联的分析以及顶级灵敏/抗性细胞系。此外,我们对GPT进行了比较评估,该评估是针对多个基于变压器的预验证模型和现有的DSP基准的。结果:在五个组织组的药物基因组学数据集上进行的广泛实验表明,微调GPT会产生最佳的DSP性能(28%F1增加,P值= 0.0003),然后群集预处理的GPT嵌入了GPT嵌入(26%F1增加,P-value = 0.0005),很少有gpt(I.但是,在零射击设置中的GPT具有很大的F1间隙,导致表现最差。在迅速工程的范围内,通过直接指导GPT有关DSP任务并诉诸简洁上下文格式(即指令 - 预备)来实现性能提高,从而导致F1性能增长22%;同时,从基因组学和/或分子特征衍生出的药物细胞线及时及格环境将F1得分进一步提高了2%。