心音听诊在先天性心脏病的诊断中具有重要意义。然而,现有的心音诊断 (HSD) 任务方法主要局限于几个固定的类别,将 HSD 任务视为一个严格的分类问题,与医疗实践不完全相符,并且只能向医生提供有限的信息。此外,这种方法不利用超声心动图报告,而超声心动图报告是诊断相关疾病的黄金标准。为了应对这一挑战,我们推出了 HSDreport,这是 HSD 的新基准,它要求直接利用从听诊中获得的心音来预测超声心动图报告。该基准旨在将听诊的便利性与超声心动图报告的全面性结合起来。首先,我们为这个基准收集了一个新数据集,包括 2,275 个心音样本及其相应的报告。随后,我们开发了一个基于查询的知识感知转换器来处理这项任务。目的是利用医学预训练模型的功能和大型语言模型 (LLM) 的内部知识来解决任务固有的复杂性和多变性,从而提高方法的稳健性和科学有效性。此外,我们的实验结果表明,我们的方法在检测心音中的关键异常方面明显优于传统的 HSD 方法和现有的多模态 LLM。
主要关键词