计算社会科学(CSS)的实践通常依靠人标记的数据来调查监督的文本分类器。我们评估了研究人员使用来自生成大语言模型(LLM)的替代培训标签增强或替换人类生成的培训数据的潜力。我们介绍了推荐的工作流程,并通过复制14个分类任务和测量性能来测试此LLM应用程序。我们采用了来自高影响力期间CSS文章的新型英语文本分类数据集。由于这些数据集存储在受密码保护的档案中,因此我们的分析不太容易受到污染问题。对于每项任务,我们将使用GPT-4标签的监督分类器进行了比较,并用人类注释进行了微调的分类器,并与GPT-4和Mismtral-7b的标签进行了微调,并以较少的镜头在上下文中学习。我们的发现表明,在LLM生成的标签上微调的监督分类模型与通过人类注释者的标签进行了微调的模型相当。使用LLM生成标签的微调模型可以是构建监督文本分类器的快速,高效且具有成本效益的方法。
摘要 - 语义分割和立体声匹配是用于自动驾驶的3D环境感知系统的两个基本组成部分。然而,传统方法通常独立解决这两个问题,并采用每个任务的单独模型。这种方法在现实情况下构成了实际限制,尤其是当计算资源稀缺或实时绩效是必须的。因此,在本文中,我们介绍了S 3 M-NET,这是一个新型的联合学习框架,旨在同时执行语义分割和立体声匹配。特别是S 3 M-NET共享从这两个任务之间从RGB图像中提取的功能,从而提高了整体场景理解能力。使用特征融合适应(FFA)模块实现此功能共享程序,该模块有效地将共享特征转换为语义空间,然后将它们与编码的差异功能融合在一起。整个联合学习框架是通过最大程度地减少新颖的语义一致性引导(SCG)损失来训练的,该损失强调了这两个任务的结构一致性。与其他最先进的单个任务网络相比,在VKITTI2和KITTI数据集上进行的广泛实验结果揭示了我们提出的联合学习框架的有效性及其优越的性能。我们的项目网页可在mias.group/s3m-net上访问。
bionano访问支持不同的工作流以检测人类基因组中的结构变体(SV)(图1)。根据Bionano技术,一种罕见的变体被定义为样品中低丰度中存在的变体,并且在参考分子中不存在。为了有效地识别此类变体,使用专用的生物信息学管道,该管道在局部将分子与参考保持一致,将它们与假定的差异组装成共识图,并以较少的计算负担确定结构变化。有关这些工作流中每一个的更多信息,请参阅Bionano求解操作理论:结构变体呼叫(CG-30110),Bionano求解操作理论:变体注释管道(CG-30190)和Bionano solve of操作理论:ENFOCUS FSHD分析(CG-303221)。要获取有关数据覆盖目标的信息,这些信息可能会根据分析而变化,请参见数据收集指南(CG-30173)。获取有关Bionano如何确定原始数据质量控制的信息,请参阅Bionano Access仪表板和芯片指标指南(CG-30304)和Bionano Access分子质量报告指南(CG-30223)。
单细胞测序技术,包括单细胞RNA测序(SCRNA-SEQ)和单细胞ATAC测序(SCATAC-SEQ),使研究人员能够量化细胞的OMIC PHE-NOTYPES。理想的单细胞数据分析有望帮助研究人员了解细胞上的异质性,提取感兴趣的细胞亚群,识别与细胞亚群相对应的特征基因集,并揭示细胞子源的关系。在这些分析任务中,识别特征基因集是一个关键步骤。特征基因集定义为在细胞亚群之间差异表达的基因集。它们通常用于注释细胞亚群并进行基因集富集分析。现有的特征基因鉴定方法经常采用两步方法(此后称为两步方法):首先将细胞聚集(例如Seurat [1-4],简单的Louvain [5],通过插入性和维度降低(CIDR)(CIDR)[6]和Scanpy [7]和差异表达基因(例如9)(例如9)[8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [14,15],limma-voom [16]和桅杆[17])随后在细胞簇上进行以识别特异性特异性特征基因。但是,这种方法对具有复杂或微妙的异质性的数据具有可疑的精度,因为不准确的初始聚类步骤可能会导致随后的错误特征基因鉴定[18]。但是,这些方法不会将特征基因分离为亚群特异性基因集,从而限制了它们的注释细胞的效用。这些基因集用于计算细胞基因集富集评分,然后注释细胞。另外,某些方法通过检测高度可变基因(HVG)的偏差来识别特征基因,这些基因与人群相对于模型拟合的偏差[19],辍学率[20]和UMI计数分布[21](此后称为HVG方法)。为了克服现有方法的局限性,我们提出了Sifinet,这是一种直接识别特征基因集的独特方法,可消除对先前细胞聚类的需求。源于关键观察,即在细胞亚群中共差异表达的基因也表现出共表达模式(供应。注1),Sifinet构建了一个基因共表达网络,并检查其拓扑以识别特征基因集。此外,这些基因集中的网络意味着细胞亚群之间的关系(图1)。此外,Sifinet可以选择地整合SCATAC-SEQ数据,因为它形成了基因合作 - 染色质网络,并探讨了其拓扑以确定表观基因组特征基因集。Sifinet分析SCRNA-SEQ和SCATAC-SEQ数据的能力使研究人员深入了解了细胞多瘤异质性。我们证明,在识别特征基因集和增强细胞注释精度时,Sifinet优于现有的两步方法和HVG方法。此外,我们认为Sifinet可以鉴定细胞之间的复杂异质性,并揭示细胞亚群中潜在的发育谱系。Sifinet也可以缩放以分析数百万个单元的数据集。我们将Sifinet应用于五个已发表的实验数据集,并发现了一些潜在的新发现,例如潜在的新细胞周期标记和衰老标记,衰老细胞富集的亚群,髓样祖细胞的发育效果以及CD8细胞的发育效果以及CD8细胞的构造以及可能的过渡路径。
布列塔尼将在2024-2030年军事计划(LPM)中加强国防、网络防御和网络安全方面的主要行动。这是 2014 年网络卓越国家 (PEC) 的新推动力,也是人工智能发展战略的一部分。
气候变化已成为全球主要问题之一,对整个社会和农业食品系统构成威胁。不断恶化的环境条件,包括气温升高、极端天气事件加剧、水资源短缺、土地退化、海平面上升和海洋酸化,不仅影响了自然系统,而且对农业食品系统的交付能力也产生了重大影响(粮农组织,2020 年)。这种影响加上全球人口的增长,对农业确保最脆弱人口群体粮食安全的能力提出了挑战。它阻碍了消除饥饿和营养不良的进程,加剧了粮食和营养危机以及贫困的严重程度,特别是在低收入国家(粮食及农业状况,2016 年)。
丝氨酸苏氨酸激酶11(STK11)中功能(LOF)突变的丧失发生在15%的肺腺癌中,并且已被证明在临床上以及临床前模型中促进了对免疫检查点阻断的抗性。尽管STK11在人类癌症中通常被灭活,对治疗结果的影响很大,但是从功能上表征了从肿瘤样品中鉴定出的STK11突变。TNG260是Corest的一种抑制剂,目前正在研究与Pembrolizumab结合使用STK11-突变癌(NCT05887492)。患者有资格参加TNG260期1/2期试验,如果他们的肿瘤含有有害的STK11突变。为了开始对未经注销的变体进行分类,从STK11文献或肿瘤测序数据的公共存储库中鉴定出超过2,000个不同的突变,例如AACR Project Genie和Clinvar。在可能的情况下,从文献或诸如Polyphen-2之类的预测工具中捕获了功能丧失注释。但是,许多STK11变体,尤其是错义突变,从未在功能上表征。我们开发了一种功能筛选方法,使用肺腺癌细胞系A549表征STK11改变。A549细胞包含通过Q37处的截短突变纯合损失STK11,并且在这些细胞中重新表达了野生型STK11的表达,严重损害了它们在体外和体内的生长。我们创建了一个STK11变体cDNA的库,每个cdnas包含一个唯一的条形码。在屏幕末端,使用每个突变cDNA的独特条形码通过NGS对变体进行了定量,并将其与良好的对照对照进行了比较。该文库在A549中表达,并在体外或体内保持细胞,以允许对STK11功能丧失变体进行积极选择,并且耗尽了像野生型STK11的变体。这些数据被组装成生成TNG260Muntfinder.com-第一个策划具有功能注释的STK11变体的网站。
基础模型在几个领域取得了巨大的成功,例如自然语言处理,计算机视觉和最近的生物学。DNA粉底模型尤其是作为基因组学有前途的方法而出现的。然而,到目前为止,尚无模型在广泛的基因组和调节元素上提供了核苷酸级预测,从而限制了它们的实际实用性。在本文中,我们基于以前在核苷酸跨前(NT)上的工作,以开发分割模型分割,该模型将处理至30kb-long的输入DNA序列,以预测单核苷酸分辨率下的14种基因组元素类别类别。通过利用NT的预训练权重,分段超过了几种消融模型的性能,包括具有单热编码的核苷酸序列和从SCRATCH训练的模型的卷积网络。分段可以使用零射线通用的多个序列长度来处理高达50kb的序列。我们在整个基因组的剪接位点检测中显示出改善的性能,并表现出强核苷酸水平的精度。因为它同时评估所有基因元件,因此分段可以预测序列变体对剪接位点变化的影响,而且还可以预测转录本相工相的外显子和内含子重排的影响。最后,我们表明,对人类基因组元素进行训练的分段模型可以推广到不同的人和植物物种的元素,并且训练有素的多种阶段分段模型可以实现对不见物物种的所有基因元素的更强的概括。总而言之,分段表明DNA粉底模型可以在单核苷酸分辨率下处理基因组学中复杂的颗粒状任务。分段可以很容易地扩展到其他基因组元素和物种,从而代表了我们分析和解释DNA的新范式。我们使我们的jax的github存储库中可在pytorch的jax和huggingface空间上提供分段-30kb的人类和多物种模型。
线虫的遗传研究已由秀丽隐杆线虫作为模型物种主导。缺乏基因组资源使遗传研究扩展到其他线虫群体。在这里,我们报告了Mermithid线虫Mermis Nigrescens的基因组组装草案。Mermithidae是昆虫寄生的线虫,带有宿主,包括各种陆地节肢动物。我们使用纳米长读数和10倍铬链路读取了nigrescens M. nigrescens的整个基因组。组件的尺寸为524 MB,由867个脚手架组成。N50值为2.42 MB,一半的组装中的一半在30个最长的脚手架中。来自真核生物数据库(Eukaryota_odb10)的组装BUSCO分数表明基因组为86.7%,而5.1%的基因组为5.1%。基因组具有高水平的杂合性(6.6%),重复含量为83.98%。mRNA-seq从不同尺寸的NEMA TOD(≤2cm,3.5–7 cm和> 7 cm的身体长度)中读取,代表不同的发育阶段,并用于基因组注释。使用AB的初始和基于证据的基因模型预测,注释了12,313个蛋白质编码基因和24,186个mRNA。这些基因组资源将有助于研究人员调查生物学和宿主 - 寄生虫的各个方面。
摘要围绕社交媒体平台上气候变化的话语已成为理解公众情绪,观点和参与这个关键全球问题的重要途径。公开可用的数据集的不可用,再加上社交媒体平台上对气候话语的多范围分析,强调了这一领域进一步发展的必要性。为了解决这一差距,在本文中,我们对Twitter上气候变化话语的复杂领域进行了广泛的探索,利用了一个精心注释的Climaconvo数据集,其中包含15,309条推文。我们的注释包括丰富的范围,包括相关性,立场,仇恨言论,仇恨和幽默的方向,提供对话语动态的细微理解。我们解决了剖析在线气候讨论并详细介绍我们全面注释方法的固有的挑战。除了注释外,我们还对六个任务进行了各种算法的基准评估:相关检测,立场检测,仇恨言论识别,方向和目标以及幽默分析。该评估增强了我们对话语中情感波动和语言微妙的理解。我们的分析扩展到探索性数据检查,推出推文分布模式,立场流行和仇恨言论趋势。采用复杂的主题建模技术揭示了主题簇的基础,从而提供了对话语中编织的各种叙事线程的见解。这些发现为寻求浏览气候变化讨论的复杂性的研究人员,政策制定者和沟通者提供了宝贵的资源。本文的数据集和资源可在https://github.com/shucoll/climaconvo上获得。