心理理论(汤姆)是掩盖人民精神状态的能力,是开发具有人类社会智力的机器的必要意义。最近的机器学习模型,尤其是大型语言模型,似乎显示了汤姆·不明智的某些方面。但是,现有的Tom Bench- Marks使用单峰数据集 - 视频或文本。人类汤姆不仅仅是视频或文字理解。peo-ple可以灵活地理解他人的思想,这些思想基于从任何可用数据中提取的概念表示(例如目标,信念,计划)。为了解决这个问题,我们介绍了一种思想问题问题回答(MMTOM-QA)基准。MMTOM-QA在多模式数据和各种单模式数据上对机器在房屋环境中的活动进行多种模态数据进行评估。对于工程师多模式的tom容量,我们提出了一种新颖的方法,即双层(贝叶斯逆计划通过语言模型加速)。BIP-ALM从多模式数据中提取统一表示形式,并利用语言模型进行可扩展的贝叶斯逆计划。我们对包括GPT-4在内的人类绩效,BIP-ALM和最新模型进行了系统的比较。实验表明,大型语言模型和大型多模型仍然缺乏强大的TOM容量。BIP-ALM通过利用基于模型的Mental推断和语言模型的力量来显示出令人鼓舞的结果。1
主要关键词