技术的不断进步对工人产生了令人担忧的影响,无论从事何种职业。在某些工厂中,机器人数量是工人数量的 14 倍 (1) ,机器人自动化机器作为更优越的替代品进入工作领域已不再是科幻小说中的命题。这是一个显而易见的现实,而且发展如此迅速,以至于英国国家统计局 (ONS) 提供了一种工具,允许工人计算他们被取代的个人风险 (2) 。某些工作似乎不可避免地会因技术创新而消失,这让病理学家的处境岌岌可危;根据 ONS 的数据,医生被取代的风险最低,这是否能为抵御技术浪潮提供必要的保护?病理学决策的细微差别是否是机器无法实现的?或者,所涉及的过程是否有助于自动化,也许是为了改善患者护理?病理学在历史上的可塑性往往反映出人们愿意接受医学创新 (3)(4) 。自从组织病理学家因显微镜而出现以来,随着人类的进步,亚专科和新方法也应运而生 (4)。最近,数字病理学技术的采用大大简化了工作流程 (5)。不断提高临床准确性和效率的愿望推动了这种现代化。正如外科医生得到了机器人助手的帮助而不是被取代一样 (6)(7),无能为力的良性机器人“工具”的发展在逻辑上不会对病理学家的未来构成威胁。病理学家的角色将在技术的操作和解释中受到保护。如果人工智能 (AI)(约翰·麦卡锡博士将其定义为“制造智能机器的科学和工程”) (8) 为机器提供决策权,病理学家的角色将变得不那么明确。人工智能取代病理学家可能具有成本效益,通过节省病理学家的培训和工资来抵消设计和生产成本。多任务处理能力也具有明显的节省时间的能力。从历史上看,人工智能技术在自我完善和重新解释世界观方面根本无法与人类大脑相匹敌 (9) 。最近的技术发展弥补了这一差距,预示着人工智能改进诊断决策的额外考虑。人工神经网络受到大脑神经元互连的影响,已被证明对于能够学习和匹配临床专业知识的人工智能系统的发展至关重要 (10) 。Yamamoto 等人在解释未注释的组织病理学图像时试用现代人工智能技术的研究揭示了它的前景,同时也为病理学家指明了不确定的未来 (11) 。深度学习算法使机器学习成为可能,准确识别关键图像特征,获得与人类相同精度的可解释知识。值得注意的是,人工智能破译了以前未被识别的特征,提供比人类建立的格里森评分更准确的预后指征。由于该算法不需要持续的人为输入,并能识别病理学家无法识别的特征,其作为可行替代方案的潜力显而易见。然而,正如 Misbah 等人简洁地描述的那样,病理学家不仅限于诊断评估 (3) 。实验室的方向、提供临床见解、确保高标准和直接协调患者护理只是日常考虑的一小部分。这些流程对于提供实验室主导的服务至关重要,似乎与自动化不太兼容。
大语言模型(LLM),例如GPT-3.5 1,GPT-4 2,Gemini 3和Claude 4,是在大型13个数据集中训练的高级模型,能够生成与人类言语非常相似的文本。llms在各种任务中表现出色,例如回答14个问题2,生成编程代码5和分析图像6。最近的研究还强调了它们在基因组研究中的强大能力15。例如,在单细胞RNA-seq数据中,GPT-4可以产生与人类专家提供的细胞类型注释相符的细胞类型注释,仅使用标记基因信息作为输入7。此外,可以利用由GPT-3.5生成的基因嵌入17来创建单细胞嵌入以用于各种下游分析8。18这些研究表明,LLM在基因组学领域具有知识,并且有可能作为基因组研究的知识19基础。这样的基于LLM的基因组知识基础可以通过20减少定位和检索可靠信息所需的时间来显着受益于基因组研究,这一过程通常是跨学科的21个具有有限基因组专业知识的跨学科21研究人员的时间。此外,现代LLMS的先进推理和分析能力22可以有效地综合来自不同来源的信息。但是,LLM是否可以可靠地充当基因组23知识库,尚未系统地研究并保持较低的理解。24基准数据集对于比较和评估LLMS执行特定任务的能力至关重要。这些发现表明39例如,25 mmlu(大量的多任务语言理解)9是一个广泛使用的基准数据集,用于评估LLMS的Interdis-26 cipledine Inswool,而HumaneVal 10评估其生成编程代码的能力。这些基准数据集27提供了一个标准化框架,用于比较不同LLM的性能和随着时间的推移跟踪模型演变。28他们在识别现有模型的弱点并指导未来发展的29 llms方面是关键的。但是,现有的基准数据集不涵盖基因组学,并且仍然缺乏基因组知识的基准。30为此,我们开发了基因研究,这是一个全面的问答(Q&A)数据库,以基于基因组学中LLM的perfortor-31 Mance进行基准测试。基因研究包括基因组研究的各个方面,例如基因和SNP的基因组位置32,以及基因的功能。我们评估了六个LLM在基因上的性能,包括33 Ing Miogpt 11,BiomedLM 12,GPT-3.5 1,GPT-4O 13,Gemini Advanced 3和Claude 3.5 4。其中,GPT-4O,Gemini 34 Advanced和Claude 3.5是当代LLM,因其在各种任务中的出色表现而广受认可。35我们的分析表明,基于基因组知识的问题在整个LLM中的准确性显着差异。36此外,我们观察到,当LLM可以访问Web浏览功能时,可以进一步提高性能。37然而,即使表现最好的LLM在某些任务中完全失败了,尽管基因组知识被包括在其培训语料库中,但仍无法在38其他其他任务中正确回答所有问题。