为印度建造包容性AI:Shaip在Vaani项目中的作用

在一个像印度一样在文化上多样化和语言上丰富的国家,建立包容性的AI始于收集代表,高质量的数据集。这就是Vaani项目背后的愿景,这是由Artpark,Iisc Bengaluru和Google领导的大规模开放式倡议和Google,旨在表达每种印度语言和方言。雄心勃勃的目标?收集150,000多个小时的演讲[…]

来源:Shaip 博客

在一个像印度一样在文化上多样化和语言上丰富的国家,建立包容性的AI始于收集代表,高质量的数据集。这就是Vaani项目背后的愿景,这是由Artpark,Iisc Bengaluru和Google领导的大规模开放式倡议和Google,旨在表达每种印度语言和方言。

项目vaani Artpark iisc班加罗尔 Google

雄心勃勃的目标?从印度773个地区收集100万人的讲话和15,000多个小时的抄录。

150,000多个小时的语音 15,000多个小时的转录 100万人 773个地区

作为这项国家任务的关键供应商之一,Shaip在策划自发的语音数据,转录和元数据收集方面发挥了关键作用 - 为真正代表真正的印度的公平语音技术奠定了基础。

Shaip

Vaani项目背后的愿景

Vaani项目旨在通过在印度创建最大的多模式,多语言,开源数据集来弥合AI包容差距。该数据是基本的,用于开发印度本地语言的准确语音识别,翻译和生成AI系统,其中许多在全球技术生态系统中的代表性不足。

最大的多模式,多语言,开源数据集

长期愿景是为有影响力的应用提供:

Shaip在Vaani项目中的作用

Shaip被委托收集了8,000个小时的自发演讲和800小时的手动验证。我们的责任跨越了演讲者入职,音频捕获,元数据标记,转录协调和质量控制。

8,000小时的自发演讲 800小时手动验证的转录

8,000小时的自发音频数据

8,000小时

800小时的高质量手动抄录

800小时

每个地区的400多名母语人士的录音,代表各种年龄段,性别和方言

每个地区的400多名母语者,

基于图像的提示确保自然的上下文语音