使用 LLM 进行后期多模态传感器融合以进行活动识别

本文在 NeurIPS 2025 的健康时间序列学习研讨会上被接受。传感器数据流为下游应用程序提供有关活动和背景的有价值的信息,尽管集成补充信息可能具有挑战性。我们表明,大型语言模型(LLM)可用于后期融合,以根据音频和运动时间序列数据进行活动分类。我们从 Ego4D 数据集中整理了一个数据子集,用于跨环境(例如家庭活动、运动)的各种活动识别。经评估的法学硕士取得了 12 级零和一次机会……

来源:Apple机器学习研究

本文已被 NeurIPS 2025 的健康时间序列学习研讨会接受。

传感器数据流为下游应用程序提供有关活动和上下文的有价值的信息,尽管集成补充信息可能具有挑战性。我们表明,大型语言模型(LLM)可用于后期融合,以根据音频和运动时间序列数据进行活动分类。我们从 Ego4D 数据集中整理了一个数据子集,用于跨环境(例如家庭活动、运动)的各种活动识别。经过评估的法学硕士获得了 12 类零分类和单样本分类 F1 分数,显着高于偶然性,且没有进行特定任务的培训。通过来自特定模态模型的基于 LLM 的融合进行零样本分类可以实现多模态时间应用,其中用于学习共享嵌入空间的对齐训练数据有限。此外,基于 LLM 的融合可以实现模型部署,而无需为目标应用程序特定的多模态模型提供额外的内存和计算。