诗人约瑟夫·艾迪生曾经说过:“我们的视觉是我们所有感官中最完美、最令人愉悦的。”计算机视觉的目标是制造能够看见的机器。我们已经见证了一些成功的视觉应用,例如人脸识别和无人驾驶汽车。未来还有更多。在未来十年,我们可以期待计算机视觉对我们的生活方式产生深远的影响。本系列讲座的目标是涵盖计算机视觉的数学和物理基础。视觉处理图像。我们将研究图像的形成方式,然后开发各种从图像中恢复有关物理世界的信息的方法。在此过程中,我们将展示视觉的几个现实世界应用。由于深度学习如今很流行,您可能想知道是否值得了解视觉的第一原理,或者就此而言,了解任何领域的第一原理。给定一个任务,为什么不直接用大量数据训练神经网络来解决任务呢?事实上,有些应用这种方法可能就足够了,但有几个理由让我们接受基础知识。首先,训练网络来学习可以用第一原理简明而准确地描述的现象是费力且不必要的。其次,当网络表现不佳时,第一原理是您了解原因的唯一希望。第三,旨在学习复杂映射的网络通常需要收集大量训练数据。这可能很乏味,有时甚至不切实际。在这种情况下,基于第一原理的模型可用于合成训练数据而不是收集数据。最后,学习任何领域第一原理的最令人信服的理由是好奇心。人类的独特之处在于我们天生渴望知道事物为什么以它们的方式运作。我将本系列讲座分为 5 个模块,每个模块涵盖计算机视觉的一个重要方面。模块 1 是关于成像。模块 2 是关于检测特征和边界。模块 3 是关于从单一视点进行 3D 重建。模块 4 是关于使用多个视点进行 3D 重建。模块 5 涵盖感知。要学习这些模块中的任何一个,您不需要任何计算机视觉方面的先验知识。你只需要了解线性代数和微积分的基础知识。如果你恰好懂一门编程语言,它就能让你想象我所描述的方法如何在软件中实现。简而言之,任何理科或工科二年级学生都应该能够轻松掌握这些内容。
主要关键词