*应与之相对应:电子邮件:avi.maayan@mssm.edu摘要摘要Gene表达式Omnibus(GEO)是转录组学和其他OMICS数据集的主要开放生物医学研究存储库。目前,它包含来自世界各地许多生物医学研究实验室收集的数万研究中的数百万个基因表达样品。虽然地理存储库的用户可以搜索描述用于查找相关数据集的研究的元数据,但当前没有任何方法或资源可以促进在数据级别上对GEO进行全局搜索。为了解决这一缺点,我们开发了Rummageo,这是一种WebServer应用程序,可实现基因表达签名搜索沉积在GEO中的大量人和小鼠RNA-Seq研究。为了开发搜索引擎,我们从ArchS4可获得的均匀对齐的GEO研究中对样本条件进行了离线自动识别。然后,我们计算出差异表达特征,以从这些研究中提取基因集。总共rummageo目前包含135,264个人和158,062个小鼠基因集,这些基因集从23,395个地理研究中提取。接下来,我们分析了Rummageo数据库的内容,以识别统计模式并执行各种全局分析。Rummageo数据库的内容作为签名搜索,PubMed搜索和元数据搜索功能提供了网络服务器搜索引擎。总的来说,Rummageo为生物医学研究社区提供了前所未有的资源,为许多未来的研究提供了假设的产生。Rummageo搜索引擎可从以下网站获得:https://rummageo.com/。引言基因表达综合(GEO)包含数以万计的转录组学研究,以及由RNA-Seq 1收集的超过200万个全基因组基因表达样品。这种大规模的转录组学谱分析涵盖了许多生物,疾病,药物治疗,遗传扰动,例如敲除,敲低和跨组织,细胞类型和细胞系的基因过表达。在GEO中的此转录组学数据可能很难搜索和重复使用,因为它主要是以RAW FASTQ文件格式提供的,并且有关每项研究条件的元数据,并且每项研究中的样本在格式中不一致,并遵循不同的命名约定2。通过标准化和重组地理元数据,已经进行了多次尝试,以使地理研究更好地搜索。例如,QeometAdb提供了一个R软件包和随附的SQLite数据库以在本地查询GEO数据集,从而提高了查询速度和Geo Metadata 3的可访问性。同样,Regeo使用自然语言处理(NLP)技术来提取时间点和疾病
主要关键词