摘要 - 这篇文章介绍了一种新颖的图像到语音生成方法,旨在使用深度学习技术将图像转换为文本字幕以及尼泊尔语言的口头描述。通过利用计算机视觉和自然语言处理,该系统分析图像,外观功能,生成人类可读字幕并产生可理解的语音输出。实验利用了图像字幕生成的最先进的变压器架构,并由Resnet和ExcilityNet作为特征提取器补充。BLEU评分用作生成字幕的评估度量。BLEU-1,BLEU-2,BLEU-3和BLEU-4 N-gram所获得的BLEU得分分别为0.4852、0.2952、0.181和0.113。预估计的Hifigan(Vocoder)和Tacotorn2用于文本进行语音合成。所提出的方法有助于尼泊尔语言AI应用的未置换域,旨在提高对尼泊尔语人群的可访问性和技术包容性。