获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
与纳吉姆·德哈克(Najim Dehak)教授和JHU的Jes'us Villalba博士一起制定了用于语音活动检测的机器学习模型(VAD)时,我对语音研究的兴趣首次发展。vad均在所有语音系统中使用,但是标准的阈值方法仅在高信号与噪声比下才有效。为了创建强大的VAD模型,我在各种噪声条件下训练了一个长期的短期存储网络(LSTM)。我发现上下文信息对于语音身份检测至关重要,并在2017 JHU本科研究研讨会上介绍了这项工作。为了进一步改善我的VAD模型,我在HLTCOE的2017年应用语言探索(Scale)的夏令营中进行了参与。我观察到,LSTM的输出在相邻框架之间有很大不同,这与语音的平滑性属性相矛盾。为了解决这个问题,我研究并实施了几种机器学习模型,与HLTCOE的研究人员进行对话为我提供了有关工作的新见解。在规模结束时,我使用了一个两国隐藏的马尔可夫模型扩展了LSTM,该模型具有Google Audioset的噪声条件更多样化的,并且该模型在美国国家标准与技术研究所OpenSat上进行了评估。