DeepMind 团队于2020 年12 月发布的一种人工智能蛋白质结构预测算法AlphaFold2,被 认为具有人工智能领域里程碑性意义,解决了生物学界长达50 年的蛋白质空间结构预测 难题,改变了此前几乎只能使用X 射线晶体学和冷冻电子显微镜等实验技术确定蛋白质结 构的现状。它的原理基于最先进的深度学习算法以及进化中蛋白质结构的守恒。它使用了 大量的蛋白质序列和结构数据进行训练(如MGnify 和UniRef90 数据库、 BFD 数据库), 并 使用了一个新的深度神经网络构架,该网络被训练为通过利用同源蛋白质和多序列比 对的信息从氨基酸序列生成蛋白质结构。 DeepMind 公司与欧洲生物信息研究所(EMBL-EBI) 的合作团队已经使用AlphaFold2 成功预测出超过100 万个物种的2.14 亿个蛋白质结构, 几乎涵盖了地球上所有已知蛋白质。这一成果标志着AlphaFold2 在结构生物学领域的突 破,因为这些预测结果中有大约35%的结构具有高精度,达到了实验手段获取的结构精度, 而大约80%的结构可靠性足以用于多项后续分析。这将有助于深入理解蛋白质的结构和功 能,为生命科学领域的研究提供更多的线索和解决方案。 AlphaFold2 应用范围广泛,未来 可能被应用于结构生物学、药物发现、蛋白质设计、靶点预测、蛋白质功能预测、蛋白质 -蛋白质相互作用、生物学作用机制等。
人工智能 SaaS 领导者 SymphonyAI 推出了全球首个工业大型语言模型 (LLM),这是智能制造领域的一项开创性举措。该 LLM 托管在 Microsoft Azure 上,基于包含超过 12 亿个标记和 3 万亿个数据点的庞大工业数据集进行训练,通过提供情境化信息以加快决策速度,加速工业转型,可操作知识的交付速度最高可提高 90%。工业 LLM 的自学能力可以实时适应,提供对各种制造流程的洞察。工业 LLM API 可供私人预览,开发人员可以利用它来开发自定义应用程序,推动智能制造的新时代,并支持大专院校的教育计划。
结果:我们应用了转移学习的原理,以使用输入蛋白序列从蛋白质语言模型(PLM)产生的嵌入来预测蛋白质的热稳定性。我们使用了在数亿个已知序列上进行训练的大PLM。使用此类模型的嵌入使我们能够使用超过一百万个序列序列训练和验证高性能的预测方法,我们从具有注释的生长温度的生物体中收集了超过一百万个序列。我们的方法Temstapro(蛋白质的稳定温度)用于预测CRISPR-CAS II类效应蛋白(C2EPS)的热稳定性。预测表明,在热稳定性方面,C2EP组之间的差异很大,并且很大程度上与先前发表,并且我们新获得的实验数据。
然而,量子计算的前景引发了计算和安全原理的根本性转变。量子计算机利用叠加和纠缠等量子力学特性,通过量子门操纵量子比特(所谓的“量子位”)。从 1998 年首次实验演示在两个物理量子比特上工作的量子算法 (3),到 2023 年 12 月 IBM 演示的 1,121 个量子比特的使用 (4),量子比特的使用取得了缓慢但稳定的进展。但使用的量子比特的数量只是故事的一部分。研究的重点已经转移,目的是实现高速率量子纠错。IBM 的路线图承诺到本世纪末将实现“拥有 200 个量子比特、能够运行 1 亿个门的量子系统”(5) 。
虽然稀疏分析是在生态学家研究相对较大的植物和动物时发展起来的,但随着 21 世纪初微生物生态学的出现,这种分析变得势在必行,因此该技术进一步发展。澳大利亚共有 18,448 种维管植物(https://www.dcceew.gov.au/science-research/abrs/publications/other/numbers- living-species/discussion-plants),而一克土壤含有 30,000 至 50,000 个细菌和真菌类群,数量约为 100 亿个。识别微生物的标准方法是对 16S 核糖体进行 DNA 测序。问题是测序时间有多长?答案与较大物种的生物多样性研究一样,在于稀疏分析。如果测序深度超过 1500 个碱基对,那么付出额外的努力和费用将无法获得额外的信息
在本设计测试中,我们使用 BERT-Large 无大小写(全词掩码)预训练模型作为模型检查点。该模型包含 3.4 亿个参数。我们使用斯坦福问答数据集 (SQuAD) v1.1 数据集进行微调分析。用例要求按照英特尔架构 Model Zoo 在线存储库文档 中所述执行。为了展示使用可扩展端到端企业 AI 堆栈解决方案进行 BERT-Large 微调的性能和可扩展性,我们使用了潜在的英特尔优化,例如针对 oneDNN 优化的 TensorFlow 和用于分布式训练的 Horovod。Horovod 与英特尔® MPI 库 一起部署,进一步利用了英特尔在 MPI 层的优化。我们使用容器映像和一组 MPIJob 规范文件在 Kubeflow 的训练运算符上运行 BERT-Large 工作负载。
所有数据均由 Leash Biosciences 内部生成,比赛将由 Kaggle 举办。由于 DEL 化学的重叠性质,测试训练拆分必然会减少比赛期间可用的数据量(例如,对于测试集中的给定构建块,必须从训练和验证集中删除包含该构建块的所有分子)。我们为每种蛋白质提供大约 98M 个训练示例、200K 个验证示例和 360K 个测试分子。这些数据集非常不平衡:大约 0.5% 的示例被归类为命中。在这里,示例是标记为结合剂或不是结合剂的小分子;我们使用了 3 轮选择,共三次,以通过实验识别结合剂。比赛结束后,Leash 将提供所有数据以供将来使用(3 个目标 * 3 轮选择 * 3 次重复 * 1.33 亿个分子,或 3.6 亿次测量)。
我们提出了 phi-4,这是一个拥有 140 亿个参数的语言模型,其开发方法主要关注数据质量。与大多数语言模型不同,这些模型的预训练主要基于 Web 内容或代码等有机数据源,而 phi-4 则在整个训练过程中策略性地整合了合成数据。虽然 Phi 系列中的先前模型在很大程度上提炼了教师模型(特别是 GPT-4)的功能,但 phi-4 在以 STEM 为中心的 QA 功能方面大大超越了教师模型,这证明我们的数据生成和后训练技术超越了提炼。尽管对 phi-3 架构的改动很小,但由于数据、训练课程的改进和后训练方案的创新,phi-4 相对于其规模实现了强劲的性能——尤其是在以推理为重点的基准上。
• 有多种因素会影响 CPU 的性能,现在我们只讨论时钟速度 时钟速度 • 获取-解码-执行周期的速度由 CPU 的时钟芯片决定。该芯片使用保持恒定速率的振动晶体。时钟速度以赫兹 (Hz) 为单位,即每秒的周期数。500Hz 的时钟速度意味着每秒 500 个周期。当前计算机的 CPU 时钟速度为 3GHz,意味着每秒 30 亿个周期。 超频 • 可以提高 CPU 的时钟速度。这称为超频。理论上,如果时钟速度更快,那么 CPU 可以执行更多计算,因此性能更快。问题是 CPU 做的工作越多,温度就越高 - 因此如果没有适当的热量管理,超频是危险的。如果您想挑战自己,可以对“CPU 核心”和“CPU 缓存”做一些独立研究!