详细内容或原文请订阅后点击阅览
自动化 NLP 流程如何将肿瘤学数据提取时间从几周缩短到几小时
Cognizant 高级数据科学家兼 IEEE 会议发言人 Abhijit Nayak 讨论了为癌症研究构建生产级信息提取系统,以及为什么领域专业知识比模型大小更重要。 《人工智能评论》7 月份的一项调查分析了 156 项肿瘤学 NLP 研究,并发现了一种模式:Transformer 模型在研究基准上表现出色,然后崩溃 [...]
来源:AI Time JournalCognizant 高级数据科学家兼 IEEE 会议发言人 Abhijit Nayak 讨论了为癌症研究构建生产级信息提取系统,以及为什么领域专业知识比模型大小更重要。
《Artificial Intelligence Review》7 月的一项调查分析了 156 项肿瘤学 NLP 研究,并发现了一种模式:Transformer 模型在研究基准上表现出色,但在临床工作流程中部署时却崩溃了。 ClinicalBERT 从精心策划的病理报告中准确提取癌症诊断。当医院文档因医生、机构和部门而异时,相同的架构就会失败。技术基础比以往任何时候都更强大。该系统仍然无法在生产中运行。
这种模式在医疗保健人工智能中很常见:在精选数据集上取得令人印象深刻的基准,然后当相同的系统满足现实条件时就会出现摩擦。在肿瘤学领域,治疗决策和研究所需的 80% 数据都存在于非结构化临床记录中,这种差距会产生后果。癌症登记落后。临床试验匹配速度减慢。可以为护理提供信息的治疗见解仍然隐藏在数百万份文件中,没有人有时间手动阅读。
Abhijit Nayak,Cognizant 的高级数据科学家 (NLP),构建的提取管道实际上可以在接触混乱的医院数据时幸存下来。他的系统处理数百万条肿瘤记录——提取诊断、生物标志物结果、治疗时间表——并具有临床环境所需的验证逻辑和审计跟踪。今年,他在维也纳和新加坡的 IEEE 会议上展示了关于 LLM 再现性和即时优化的研究。我们讨论了 NLP 系统从纸质版转向生产版时的致命因素、领域专业知识如何捕捉较大模型遗漏的边缘情况,以及为什么理解肿瘤学文档模式比基础模型参数计数更重要。
这两篇论文首先解决了我在生产中遇到的问题。学术框架是后来出现的。
