。 2 3计算与信息研究所2922,巴基斯坦; (khalid@gu.edu.pk)4欧罗比亚大学。萨贝尔·托雷斯(Sabel Torres)21,39011西班牙桑坦德(Santander); Prolacio。Cauanza是一所国际大学。Cuito,Bé,Angola8 La Romana大学。 多米尼加,通信和远程信息处理工程。 valladolid的Unviersity,PaseodeBelén,15。 47011 Valladold - 西班牙; 108 La Romana大学。多米尼加,通信和远程信息处理工程。valladolid的Unviersity,PaseodeBelén,15。47011 Valladold - 西班牙; 10
盲人用户依靠替代文本 (alt-text) 来理解图像;然而,alt-text 经常缺失。AI 生成的字幕是一种更具可扩展性的替代方案,但它们往往会遗漏关键细节或完全不正确,而用户可能仍然会错误地相信这些细节。在这项工作中,我们试图确定如何通过额外的信息帮助用户更好地判断 AI 生成的字幕的正确性。我们开发了 ImageExplorer,这是一个基于触摸的多层图像探索系统,允许用户探索图像的空间布局和信息层次结构,并在一项有 12 名盲人参与者的研究中将其与流行的基于文本 (Facebook) 和基于触摸 (Seeing AI) 的图像探索系统进行了比较。我们发现,探索通常能够成功地激发人们对不完美字幕的怀疑。此外,许多参与者更喜欢 ImageExplorer 的多层次和空间信息呈现,以及 Facebook 的摘要和易用性。最后,我们确定了针对盲人用户的有效且可解释的图像探索系统的设计改进。
盲人用户依靠替代文本 (alt-text) 来理解图像;然而,替代文本经常缺失。AI 生成的字幕是一种更具可扩展性的替代方案,但它们经常会遗漏关键细节或完全不正确,用户可能仍然会错误地相信它们。在这项工作中,我们试图确定其他信息如何帮助用户更好地判断 AI 生成的字幕的正确性。我们开发了 ImageExplorer,这是一个基于触摸的多层图像探索系统,允许用户探索图像的空间布局和信息层次结构,并在一项有 12 名盲人参与者的研究中将其与流行的基于文本 (Facebook) 和基于触摸 (Seeing AI) 的图像探索系统进行了比较。我们发现探索通常能够成功地鼓励人们对不完美的字幕持怀疑态度。此外,许多参与者更喜欢 ImageExplorer,因为它具有多层次和空间信息呈现,而 Facebook 则因为它具有摘要和易用性。最后,我们确定了针对盲人用户的有效且可解释的图像探索系统的设计改进。
快速浏览的图像。尽管在计算机视觉中已经进行了巨大的发展,但诸如识别对象,动作分类,图像分类,属性分类和场景识别之类的任务是可能的,但是让计算机描述以类似人类句子的形式向其转发到它的图像是一个相对较新的任务。2。文献回顾了Andrej Karpathy等人的有影响力论文之一。在图像字幕中将任务划分为两个步骤:将句子段映射到图像中的视觉区域,然后使用这些通信来生成新的描述(Karpathy and Fei-Fei 2015)。作者使用区域卷积神经网络(RCNN)表示图像作为一组H维矢量,每个向量代表图像中的对象,基于200个Imagenet类检测到。作者在同一h维空间中的双向复发神经网络(BRNN)代表句子。每个句子是一组H维向量,代表片段或单词。BRNN的使用丰富了此表示,因为它学习了句子中每个单词上下文的知识。作者发现,有了这样的表示,单词的最终表示与与同一概念相关的视觉区域的表示密切一致。他们在单词和视觉区域的表示形式上定义了对齐得分,并在马尔可夫随机字段的帮助下,将各种单词与生成文本片段的同一区域对齐。借助图像区域和文本片段之间的这些对应关系,作者训练了另一个为新看不见的图像生成文本说明的模型(Karpathy and Fei-Fei 2015)。