从视觉问答到多模态学习:艾西瓦娅·阿格拉瓦尔 (Aishwarya Agrawal) 访谈

在 ACM SIGAI 的出版物《AI Matters》最新一期中,Ella Scallan 采访了 Aishwarya Agrawal,了解有关她的研究的更多信息、对人工智能未来最令她兴奋的因素以及对早期职业研究人员的建议。您荣获 2019 年 AAAI / ACM SIGAI 博士荣誉奖 [...]

来源:ΑΙhub

在 ACM SIGAI 出版物《AI Matters》的最新一期中,Ella Scallan 采访了 Aishwarya Agrawal,了解有关她的研究的更多信息、对人工智能未来最令她兴奋的因素以及对早期职业研究人员的建议。

您荣获 2019 年 AAAI / ACM SIGAI 博士论文奖荣誉奖。您论文研究的主题是什么?主要贡献或发现是什么?

我的博士论文主题是视觉问答,称为 VQA。我们提出了开放式和自由形式的 VQA 任务,这是一种通过询问有关图像的问题来对计算机视觉模型进行基准测试的新方法。我们为研究人员策划了一个大规模数据集,以便在该任务上训练和测试他们的模型。在此任务中,我们展示数据集中的模型图像,并通过向模型提出问题来测试对这些模型的理解——就像如何测试孩子对特定主题的理解一样。

这个任务在 10 年前还是个新鲜事。在 2015 年的计算机视觉领域,人们正在使用图像分类等分桶识别任务来评估模型。您可以在一组有限的类别上训练模型,并要求它对狗、猫和类似的东西进行分类。我们对这种模型评估不太满意,因为在这种设置中,模型只能学习您指定的类别。我们认为这不适合交互媒介。比方说,如果我是盲人并且需要视觉帮助,我的交互将不限于少数类别——我希望能够以自由形式的自然语言与这些系统交互。这促使我们提出使用 VQA 数据集来训练计算机视觉模型。

来自 VQA 数据集的示例。图片来源:Agrawal, A.,2019。视觉问答及其他。博士论文。佐治亚理工学院。

有趣,听起来你涵盖了很多内容。从那时起您的研究进展如何? 哪些未来方向或开放性问题最让您兴奋?

,