可解释性是文本分类在许多应用领域(从情绪分析到医学诊断或法律审查)的关键要求。现有方法通常依靠“注意力”机制来解释分类结果,方法是估计输入单元的相对重要性。然而,最近的研究表明,这种机制往往会在解释中错误识别不相关的输入单元。在这项工作中,我们提出了一种人机混合方法,将人类原理纳入基于注意力的文本分类模型,以提高分类结果的可解释性。具体来说,我们要求工人通过选择相关的文本片段来提供注释的理由。我们引入了 MARTA,这是一个贝叶斯框架,它共同学习基于注意力的模型和工人的可靠性,同时将人类原理注入模型训练中。我们推导出一种基于变分推理的原则性优化算法,该算法具有用于学习 MARTA 参数的有效更新规则。对真实数据集的广泛验证表明,我们的框架在分类可解释性和准确性方面都显著提高了最先进的水平。