人工智能在生物医学领域的能力范围很广,从原子级(求解量子系统的偏微分方程)到分子级(预测化学或蛋白质结构),再到社会预测(如传染病爆发)。大型语言模型的最新进展(以 ChatGPT 等模型为例)展示了其在自然语言任务(如翻译语言、构建聊天机器人和回答问题)中的强大能力。当我们考虑生物医学数据时,我们会发现其在序列方面与自然语言相似——生物医学文献和健康记录以文本形式呈现,生物序列或按序列排列的测序数据,或传感器数据(如脑信号)以时间序列形式呈现。问题出现了:我们能否利用最近的大型语言模型的潜力来推动生物医学知识的发现?在本教程中,我们将探讨大型语言模型在三个关键类别的生物医学数据中的应用:1) 文本数据、2) 生物序列和 3) 脑信号。此外,我们将深入研究大型语言模型在生物医学研究中面临的挑战,包括确保可信度、实现个性化以及适应多模态数据表示。
主要关键词