详细内容或原文请订阅后点击阅览
为印度建造包容性AI:Shaip在Vaani项目中的作用
在一个像印度一样在文化上多样化和语言上丰富的国家,建立包容性的AI始于收集代表,高质量的数据集。这就是Vaani项目背后的愿景,这是由Artpark,Iisc Bengaluru和Google领导的大规模开放式倡议和Google,旨在表达每种印度语言和方言。雄心勃勃的目标?收集150,000多个小时的演讲[…]
来源:Shaip 博客在一个像印度一样在文化上多样化和语言上丰富的国家,建立包容性的AI始于收集代表,高质量的数据集。这就是Vaani项目背后的愿景,这是由Artpark,Iisc Bengaluru和Google领导的大规模开放式倡议和Google,旨在表达每种印度语言和方言。
项目vaani Artpark iisc班加罗尔 Google雄心勃勃的目标?从印度773个地区收集100万人的讲话和15,000多个小时的抄录。
150,000多个小时的语音 15,000多个小时的转录 100万人 773个地区作为这项国家任务的关键供应商之一,Shaip在策划自发的语音数据,转录和元数据收集方面发挥了关键作用 - 为真正代表真正的印度的公平语音技术奠定了基础。
ShaipVaani项目背后的愿景
Vaani项目旨在通过在印度创建最大的多模式,多语言,开源数据集来弥合AI包容差距。该数据是基本的,用于开发印度本地语言的准确语音识别,翻译和生成AI系统,其中许多在全球技术生态系统中的代表性不足。
最大的多模式,多语言,开源数据集长期愿景是为有影响力的应用提供:
Shaip在Vaani项目中的作用
Shaip被委托收集了8,000个小时的自发演讲和800小时的手动验证。我们的责任跨越了演讲者入职,音频捕获,元数据标记,转录协调和质量控制。
8,000小时的自发演讲 800小时手动验证的转录8,000小时的自发音频数据
8,000小时800小时的高质量手动抄录
800小时每个地区的400多名母语人士的录音,代表各种年龄段,性别和方言
每个地区的400多名母语者,基于图像的提示确保自然的上下文语音