方法:本研究分析了马来西亚卫生信息中心 2017 年 1 月至 2022 年 6 月的死亡记录,这些记录已编入 ICD-10。数据匿名化符合道德标准,经过质量检查后,共纳入 387,650 份死亡登记。数据集仅限于三位数的 ICD-10 代码,经过清理和 80:20 的训练测试分割。预处理涉及 HTML 标签删除和标记化。ML 方法,包括 BERT(来自 Transformer 的双向编码器表示)、Gzip+KNN(K 最近邻)、XGBoost(极端梯度提升)、TensorFlow、SVM(支持向量机)和朴素贝叶斯,都已针对自动 ICD-10 编码进行了评估。使用 Amazon SageMaker(亚马逊网络服务,华盛顿州西雅图)对模型的准确度、F1 分数、精确度、召回率、特异性和精确度-召回率曲线进行了微调和评估。敏感性分析解决了不平衡数据场景,增强了模型稳健性。
主要关键词