这项研究通过使用视觉变压器(VIT)体系结构引入了一种创新的图像分类方法。实际上,视力传输(VIT)已成为用于图像分析任务的卷积神经网络(CNN)的有前途的选择,提供可扩展性和提高的性能。Vision Transformer VIT模型能够捕获图像元素之间的全局规定和链接。这导致了特征表示的增强。当VIT模型在不同模型上训练时,它表现出在不同的IMEGE类别中的强大分类功能。VIT直接处理图像贴片的能力而不依赖空间层次结构,简化了分类过程并证明了计算效率。在这项研究中,我们使用TensorFlow提出了Python的启动,以采用(VIT)模型进行图像分类。将使用四类动物,例如(牛,狗,马和绵羊),用于分类。(VIT)模型用于从图像中提取微不足道的特征,并添加分类头以预测类标签。该模型在CIFAR-10数据集上进行了训练,并评估了准确性和性能。这项研究的发现不仅会揭示视觉变压器模型在图像分类任务中的有效性,而且还可以作为解决复杂的视觉识别问题的强大工具的潜力。这项研究通过引入一种新颖的方法来填补现有的知识空白,该方法挑战了计算机视觉领域的传统卷积神经网络(CNN)。虽然CNN是图像分类任务的主要体系结构,但它们在捕获图像数据中的长距离依赖性方面存在局限性,并且需要手工设计的层次层次特征提取。关键字
我的目标是构建可以帮助实现现实任务的人的交互式AI系统,例如使机器人能够根据语言教学“洗衣服”执行家庭任务,或者允许数字助手通过与他们交谈来帮助盲目的视觉挑战。为了构建类似的系统,我进行了跨学科研究,该研究涵盖了计算机视觉,自然语言处理和机器人技术的交集。我的研究重点是基础:将语言与感知(主要是视觉)和动作联系起来,使机器能够理解物理世界的语义。通过整合这些不同学科的见解,我试图促进可以看到,交谈和采取行动的AI代理的发展,从而为解决社会需求并推动AI能力界限的解决方案做出了贡献。视觉是人类智力最重要的方式之一。为了弥合视觉和语言之间的差距,我开发了视觉上的交互式系统,这些系统可以与人类有关图像的连续沟通[1,2,3]。训练这些系统的主要瓶颈是缩放视觉接地的对话数据的困难。为了应对这一挑战,我引入了一种新方法,该方法会自动生成有关从网络获得数百万张图像的合成对话数据。通过利用综合数据来训练视觉接地的对话系统,我发现它们在与人交谈时会对图像产生准确而强大的响应。我已经将基于图像的系统扩展到基于视频的交互式系统[4]。我们提出了一种方法,以有效地融合以语言为基础的时间和空间信息,考虑到视频数据的独特属性。幼儿不仅通过感知来了解物理世界的语义,而且还通过与环境互动来操纵他们的感知[5]。这种观点帮助我将视觉扎根的系统扩展到体现的AI系统[6,7,8],这些系统通过与人类的语言互动执行现实世界任务。我的工作专注于语言引导的机器人操纵,在该机器人手臂上应根据人类用户的自然语言指导来操纵对象。我研究了一种新的方案,其中初始指令在不提及目标对象的情况下模棱两可。体现的系统应通过查看和与用户对话来消除目标对象。我的工作成功 - 完全与人类互动以最小的互动来执行真实的任务。