专访向方:多模态学习与具身智能

每年都会选出一小群博士生参加 AAAI/SIGAI 博士联盟。该计划为学生提供了一个机会,在跨学科研讨会上与知名研究人员小组一起讨论和探索他们的研究兴趣和职业目标。在过去的几年里,我们一直在见面 [...]

来源:ΑΙhub

每年都会选出一小群博士生参加 AAAI/SIGAI 博士联盟。该计划为学生提供了一个机会,在跨学科研讨会上与知名研究人员小组一起讨论和探索他们的研究兴趣和职业目标。在过去的几年里,我们一直在与一些学生会面,以更多地了解他们的工作。在我们对 2026 届学生的第一次采访中,我们采访了向方。

告诉我们一些关于您的博士学位的信息 - 您在哪里学习,您的研究主题是什么?

我一直在新加坡南洋理工大学 (NTU) 进行博士研究。从广义上讲,我的研究重点是多模式学习和体现智能。我试图弥合人工智能如何“看待”世界(计算机视觉)和它如何“理解”语言之间的差距。具体来说,我的博士论文工作集中于两个关键挑战:

  • 视频理解:使模型能够使用自然语言(时间句子基础)来定位视频中的特定时刻。
  • 稳健性:确保这些模型在遇到以前从未见过的数据时不会失败(分布外检测)。
  • 最终,我希望构建的人工智能代理不仅可以观看视频,还可以真正理解和导航物理世界。

    您能给我们介绍一下您在博士期间进行的研究吗?

    我将我的研究分为三个主要阶段,并在 CVPR、NeurIPS 和 AAAI 等场所发表了 40 多篇出版物。

  • 第一阶段:高效视频理解(基础)
  • 我首先讨论视频分析的效率。例如,我关于时间句子基础的工作(发表于 CVPR 2023 和 AAAI 2025)专注于如何使用语言查询快速定位长视频中的特定事件。我开发了使用最佳传输和图形推理更有效地对齐文本和视频特征的方法。
  • 展望未来,我计划:

    标签:

    ,