个人对 2024 年计算机视觉文献趋势的看法

大约五年来,我一直在 Arxiv 和其他地方持续关注计算机视觉 (CV) 和图像合成研究领域,因此趋势随着时间的推移变得明显,并且每年都会朝着新的方向转变。因此,随着 2024 年接近尾声,我认为有必要看看一些新的或不断发展的 […] 文章《个人对 2024 年计算机视觉文献趋势的看法》首先出现在 Unite.AI 上。

来源:Unite.AI

大约五年来,我一直在 Arxiv 和其他地方持续关注计算机视觉 (CV) 和图像合成研究领域,因此趋势随着时间的推移变得明显,并且每年都会朝着新的方向转变。

因此,随着 2024 年接近尾声,我认为有必要看看 Arxiv 计算机视觉和模式识别部分提交的一些新的或不断发展的特征。这些观察虽然是通过数百小时的研究得出的,但完全是轶事。

部分

东亚的持续崛起

东亚的持续崛起

到 2023 年底,我注意到“语音合成”类别中的大多数文献来自中国和东亚其他地区。到 2024 年底,我不得不(根据轶事)观察到,这现在也适用于图像和视频合成研究领域。

这并不意味着中国和邻近国家一定总是产出最好的成果(事实上,有一些证据表明情况恰恰相反);它也没有考虑到中国(和西方一样)一些最有趣和最强大的新兴系统很可能是专有的,并且被排除在研究文献之外。

相反的证据

但它确实表明,在这方面,东亚在数量上超过了西方。 这取决于你在多大程度上相信爱迪生式坚持的可行性,而这种坚持通常在面对棘手的障碍时被证明是无效的。

爱迪生式坚持 面对棘手的障碍

生成式人工智能中存在许多这样的障碍,很难知道哪些可以通过解决现有架构来解决,哪些需要从零开始重新考虑。

很多这样的障碍

与此同时,2024 年,更多的东亚论文也引起了我的关注和钦佩。所以,如果这都是一场数字游戏,那它就不会失败——但也不便宜。

提交量增加

自己的统计数据 2