获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
缩放定律表明,超过一万亿种居住在我们的星球上,但迄今为止仅研究或测序了一个微小和非代表性的分数(少于0.00001%)。深度学习模型,包括应用于生命科学任务的模型,取决于培训或参考数据集的质量和大小。鉴于我们在地球上生活时遇到的较大知识差距,我们提出了一种以数据为中心的方法来改善生物学中的深度学习模型:我们与自然公园和生物多样性利益相关者建立了伙伴关系,覆盖了50%的全球生物群落,建立了一个全球的宏观元素学和生物数据供应链。与现有公共数据相比,该数据集中捕获的蛋白质序列多样性具有较高的蛋白质序列多样性,我们将此数据优势应用于蛋白质折叠问题,通过补充Al-Phafold2的推断。我们的模型(基本折叠)超过了CASP15和CAMAO的目标的传统Alphafold2性能,其中60%显示PLDDT分数提高,RMSD值降低了80%。最重要的是,预测结构的提高质量可以产生赌注对接结果。通过与利益相关者分享利益,该数据源于我们提出的一种方法,可以同时改善生物学的深度学习模型,并激励对我们星球的生物多样性的保护。