摘要目的:癌细胞系的大量药物基因组学数据的快速积累为药物敏感性预测(DSP)提供了前所未有的机会,这是促进精度肿瘤学的关键先决条件。最近,生成的大语言模型(LLM)表明了自然语言处理领域(NLP)领域的各种任务的性能和概括。然而,药物基因组学数据的结构化格式对DSP中LLM的实用性提出了挑战。因此,这项研究的目的是多重的:适应结构化药物基因组学数据的及时工程,以优化LLM的DSP性能,评估LLM在现实世界DSP方案中的概括,并比较LLM的DSP性能与目前的Science-Science Baselines。方法:我们系统地研究了生成性预训练的变压器(GPT)作为四个公开基准药物基因组学数据集的DSP模型,这些模型由五种癌症组织类型的细胞系和肿瘤学和非综合药物进行分层。本质上,通过四个学习范式评估了GPT的预测格局在DSP任务中的有效性:零射击学习,几乎没有学习,微调和聚类预处理的嵌入。通过实施三个及时的模板(即指令,指导,预定,披肩)并将与药剂基因组相关的特征集成到提示中,为了促进GPT无缝处理结构化的药物基因组学数据,采用了域特异性新颖的及时工程。与最先进的DSP基准相比,GPT主张了卓越的F1性能我们验证了GPT在不同的现实世界DSP方案中的表现:跨组织概括,盲试和药物校园关联的分析以及顶级灵敏/抗性细胞系。此外,我们对GPT进行了比较评估,该评估是针对多个基于变压器的预验证模型和现有的DSP基准的。结果:在五个组织组的药物基因组学数据集上进行的广泛实验表明,微调GPT会产生最佳的DSP性能(28%F1增加,P值= 0.0003),然后群集预处理的GPT嵌入了GPT嵌入(26%F1增加,P-value = 0.0005),很少有gpt(I.但是,在零射击设置中的GPT具有很大的F1间隙,导致表现最差。在迅速工程的范围内,通过直接指导GPT有关DSP任务并诉诸简洁上下文格式(即指令 - 预备)来实现性能提高,从而导致F1性能增长22%;同时,从基因组学和/或分子特征衍生出的药物细胞线及时及格环境将F1得分进一步提高了2%。
1:ABC头脑风暴 - 在单位中途使用ABC头脑风暴策略,为您提供有关学生对特定主题的知识的信息。分别以成对,小组或班级的方式分别工作,学生集思广益单词或短语,这些单词或短语以字母的每个字母开头,并且与当前的研究单位有关。在一个方面的单元中途,学生可以在“ M”旁边写“聚会地点”,然后在字母“ S”旁边写下“停止,掉落和滚动”。浏览头脑风暴列表可以帮助您确定缺少哪些信息,并为计划机会提供指导,以专注于学生学习中的这些差距。可以与ABC头脑风暴评估策略一起使用的图形组织器,请访问https://www.studenthandhandouts.com/graphic-organizers/ 2:类比 - 要求学生在他们熟悉的事物与所学的新信息之间创建类比。当被要求创建一个原子的类比时,学生可能会想到一个像社区一样的原子。原子的核就像您的直系亲属。围绕核飞行的电子就像您可能定期与之相互作用的社区成员。要求学生解释他们的类比将显示他们对一个话题的理解的深度。3:清单 - 课堂清单是在研究单位期间收集有关学生数据的绝佳工具。在开始一个新单元之前,请列出学生将需要掌握该部门结果的所有技能。在图表上,在左侧列出学生的名字以及顶部的技能。将图表夹在剪贴板上,并将其放在易于访问的地方。当学生参与各种学习机会时,观察学生并查看您看到学生表现出的技能。个人清单也可用于收集有关学生学习的数据。学生和/或老师填写清单。4:合唱回应 - 如果您需要快速评估学生理解,请要求学生回答“作为课程”的一系列问题。如果您仔细聆听响应的数量和内容,您将对学生是否清楚您的展示情况有一个很好的了解。合唱反应鼓励所有学生积极参与评估过程。5:堵塞程序 - 可使用披肩程序来确定学生对特定主题或研究单位的理解水平。创建或使用与单元相关的段落。确保通过对学生的可读性水平。可能需要以不同的可读性水平的两个或三个段落来容纳班上的所有学生。一定要完整地留下第一个和最后的句子,以帮助学生理解。在线可用的两个网站可用于创建紧密的段落。6:概念图 - 概念图是一种网络,可视觉表示学生对所研究特定主题的理解。Google“概念地图图形组织者”,用于您的学生可以使用的各种可打印概念地图。学生在页面中心的椭圆形中打印主题或主要想法。然后,他们在中心椭圆形周围的空间中编写支撑细节。根据学生的年龄和能力,他们还可以将类似的支持细节分组在一起。使用概念图是必须向学生讲授的技能。一旦学生熟悉概念图,它们就可以用作任何主题领域的形成性评估策略。7:会议 - 可以与班上每个学生或您想进一步评估他们的学习的精选学生一起进行一对一的会议,对学生的理解进行形式上评估。提前确定目标问题,以确保您收集与目标或结果有关的信息。在会议期间请记录在规划指令时以后参考。