自动化 NLP 流程如何将肿瘤学数据提取时间从几周缩短到几小时 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

自动化 NLP 流程如何将肿瘤学数据提取时间从几周缩短到几小时

2026年1月27日 13:02 33 Comments

Cognizant 高级数据科学家兼 IEEE 会议发言人 Abhijit Nayak 讨论了为癌症研究构建生产级信息提取系统，以及为什么领域专业知识比模型大小更重要。《人工智能评论》7 月份的一项调查分析了 156 项肿瘤学 NLP 研究，并发现了一种模式：Transformer 模型在研究基准上表现出色，然后崩溃 [...]

来源:AI Time Journal

Cognizant 高级数据科学家兼 IEEE 会议发言人 Abhijit Nayak 讨论了为癌症研究构建生产级信息提取系统，以及为什么领域专业知识比模型大小更重要。

《Artificial Intelligence Review》7 月的一项调查分析了 156 项肿瘤学 NLP 研究，并发现了一种模式：Transformer 模型在研究基准上表现出色，但在临床工作流程中部署时却崩溃了。 ClinicalBERT 从精心策划的病理报告中准确提取癌症诊断。当医院文档因医生、机构和部门而异时，相同的架构就会失败。技术基础比以往任何时候都更强大。该系统仍然无法在生产中运行。

这种模式在医疗保健人工智能中很常见：在精选数据集上取得令人印象深刻的基准，然后当相同的系统满足现实条件时就会出现摩擦。在肿瘤学领域，治疗决策和研究所需的 80% 数据都存在于非结构化临床记录中，这种差距会产生后果。癌症登记落后。临床试验匹配速度减慢。可以为护理提供信息的治疗见解仍然隐藏在数百万份文件中，没有人有时间手动阅读。

Abhijit Nayak，Cognizant 的高级数据科学家 (NLP)，构建的提取管道实际上可以在接触混乱的医院数据时幸存下来。他的系统处理数百万条肿瘤记录——提取诊断、生物标志物结果、治疗时间表——并具有临床环境所需的验证逻辑和审计跟踪。今年，他在维也纳和新加坡的 IEEE 会议上展示了关于 LLM 再现性和即时优化的研究。我们讨论了 NLP 系统从纸质版转向生产版时的致命因素、领域专业知识如何捕捉较大模型遗漏的边缘情况，以及为什么理解肿瘤学文档模式比基础模型参数计数更重要。

这两篇论文首先解决了我在生产中遇到的问题。学术框架是后来出现的。

信息的医疗保健领域提取临床审计跟踪相同的调查分析信息提取人工智能实际上生产模型 Abhijit 癌症再现性 Nayak 临床试验 IEEE 科学家时间表数据集为什么研究所需的肿瘤学系统技术基础 Cognizant 模式比 NLP 治疗标志物研究所混乱的

自动化 NLP 流程如何将肿瘤学数据提取时间从几周缩短到几小时

其他外部链接

Tags

XiaoMi-AI