动机:长阅读测序技术正在成为基因组和转录组分析中越来越不可或缺的工具。特别是在转录组学中,长读数提供了对全长同工型进行测序的可能性,这可以极大地简化新的转录本和转录本定量的识别。尽管有希望,但迄今为止,长期阅读方法开发的重点是成绩单识别,而对量化的关注相对较少。然而,由于基本协议和技术的差异,较低的吞吐量(即与简短读取技术相比,每个样品测序的读取更少)以及技术文物,长期读取量化仍然是一个挑战,激发了根据这种日益普遍的数据量身定制的量化方法的持续开发和评估。结果:我们引入了一种新的方法和软件工具,用于长读成绩单量化称为oarfish。我们的模型结合了一种新颖而创新的覆盖率评分,这会影响基本概率模型中碎片分配的条件概率。我们证明,通过考虑这些覆盖范围信息,Oarfish能够比现有的长读量化方法产生更准确的定量估计值,尤其是当人们考虑特定细胞系或组织类型中的主要同工型时。可用性和实施:在Rust编程语言中实施了OARFISH,并根据BSD 3-Clause许可证作为免费和开源软件提供。源代码可在https://www.github.com/combine-lab/ oarfish上找到。
主要关键词