DeepMind 探索视频识别领域的 AI 能力

当今最著名的人工智能,被谷歌、Facebook、亚马逊和其他硅谷公司所使用,它基于深度学习算法,可以学习识别大量数据中的模式。

来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)

当今最著名的人工智能,被谷歌、Facebook、亚马逊和其他硅谷公司所使用,它基于深度学习算法,可以学习识别大量数据中的模式。

随着时间的推移,此类算法可以在解决许多不同的任务方面变得更加先进,包括外语翻译或自动识别在线服务中朋友的面孔。

但即使是最精细的深度学习引擎也依赖于大量高质量的数据来学习。英国公司 DeepMind 致力于提高人工智能识别人类运动手势的能力,展示了其动力学数据集,其中包含 300,000 个视频剪辑和 400 个人类动作类别。

“人工智能系统现在非常擅长识别图像中的物体,但它仍然很难理解视频的含义,”DeepMind 发言人表示。 “造成这种情况的主要原因之一是科学界迄今为止缺乏大型、高质量的视频数据库。”

DeepMind 使用 Amazon Mechanical Turk 正确识别和标记数千个 YouTube 剪辑中的动作。 Kinetics 数据集中的 400 个人类动作类别中的每一个都至少有 400 个视频剪辑,每个视频剪辑长约 10 秒,取自各个 YouTube 视频。

使用动力学数据集进行训练和测试的第一个结果很有趣。例如,深度学习算法在对“打网球”、“爬行婴儿”、“展示天气预报”、“切西瓜”和“保龄球”等活动进行分类时显示出 80% 或更高的准确度。但对于荷马·辛普森 (Homer Simpson) 角色的动作,包括挥拳以及“做蛋糕”和“抛硬币”等一系列动作,分类准确率下降到约 20% 或更低。