基因组的大型语言模型___XiaoMi-AI 助力科研平台

基因组的大型语言模型

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

基因组的大型语言模型

¥ 1.0

热度

大语言模型（LLM），例如GPT-3.5 1，GPT-4 2，Gemini 3和Claude 4，是在大型13个数据集中训练的高级模型，能够生成与人类言语非常相似的文本。llms在各种任务中表现出色，例如回答14个问题2，生成编程代码5和分析图像6。最近的研究还强调了它们在基因组研究中的强大能力15。例如，在单细胞RNA-seq数据中，GPT-4可以产生与人类专家提供的细胞类型注释相符的细胞类型注释，仅使用标记基因信息作为输入7。此外，可以利用由GPT-3.5生成的基因嵌入17来创建单细胞嵌入以用于各种下游分析8。18这些研究表明，LLM在基因组学领域具有知识，并且有可能作为基因组研究的知识19基础。这样的基于LLM的基因组知识基础可以通过20减少定位和检索可靠信息所需的时间来显着受益于基因组研究，这一过程通常是跨学科的21个具有有限基因组专业知识的跨学科21研究人员的时间。此外，现代LLMS的先进推理和分析能力22可以有效地综合来自不同来源的信息。但是，LLM是否可以可靠地充当基因组23知识库，尚未系统地研究并保持较低的理解。24基准数据集对于比较和评估LLMS执行特定任务的能力至关重要。这些发现表明39例如，25 mmlu（大量的多任务语言理解）9是一个广泛使用的基准数据集，用于评估LLMS的Interdis-26 cipledine Inswool，而HumaneVal 10评估其生成编程代码的能力。这些基准数据集27提供了一个标准化框架，用于比较不同LLM的性能和随着时间的推移跟踪模型演变。28他们在识别现有模型的弱点并指导未来发展的29 llms方面是关键的。但是，现有的基准数据集不涵盖基因组学，并且仍然缺乏基因组知识的基准。30为此，我们开发了基因研究，这是一个全面的问答（Q＆A）数据库，以基于基因组学中LLM的perfortor-31 Mance进行基准测试。基因研究包括基因组研究的各个方面，例如基因和SNP的基因组位置32，以及基因的功能。我们评估了六个LLM在基因上的性能，包括33 Ing Miogpt 11，BiomedLM 12，GPT-3.5 1，GPT-4O 13，Gemini Advanced 3和Claude 3.5 4。其中，GPT-4O，Gemini 34 Advanced和Claude 3.5是当代LLM，因其在各种任务中的出色表现而广受认可。35我们的分析表明，基于基因组知识的问题在整个LLM中的准确性显着差异。36此外，我们观察到，当LLM可以访问Web浏览功能时，可以进一步提高性能。37然而，即使表现最好的LLM在某些任务中完全失败了，尽管基因组知识被包括在其培训语料库中，但仍无法在38其他其他任务中正确回答所有问题。

添加pdf代下载 VIP点击下载文件

基因组的大型语言模型

主要关键词

广泛使用相似的模型的 GPT 基因组标准化数据集最好的数据大量的基准数训练的提高性能基准数据使用的 3.5 最近的知识库数据库输入全面的研究的基准研究人员 Claude 基因高性能基因组研究生成发展的 LLM 多任务研究代码的 Gemini 知识准确性相符的模型跨学科时间的较低的关键的语料库信息所需的现有的提高

基因组的大型语言模型PDF文件第1页