Loading...
机构名称:
¥ 4.0

由形式语言构建的合成数据集允许对序列分类的机器学习系统的学习和泛化功能进行细粒度检查。本文在序列分类中为机器学习系统提供了一个新的基准,称为MLREGTEST,其中包含来自1,800种普通语言的培训,开发和测试集。不同种类的形式语言代表了不同种类的长距离依赖,并且正确识别序列中的长距离依赖性是ML系统成功概括的已知挑战。mlregtest根据其逻辑复杂性(Monadic的二阶,第一顺序,命题或受限命题)及其逻辑文字(字符串,层,弦,弦,子序列或组合)的种类组织语言。逻辑上的复杂性和文字选择提供了一种系统的方式来理解普通语言中不同种类的长距离依赖性,因此可以理解不同的ML系统的能力,以学习这种长距离依赖的依赖。最后,检查了不同神经网络(简单的RNN,LSTM,Gru,Trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans-trans)的性能。主要的结论是,性能在很大程度上取决于测试集,语言类别和神经网络体系结构。

mlregtest:普通语言的机器学习基准

mlregtest:普通语言的机器学习基准PDF文件第1页

mlregtest:普通语言的机器学习基准PDF文件第2页

mlregtest:普通语言的机器学习基准PDF文件第3页

mlregtest:普通语言的机器学习基准PDF文件第4页

mlregtest:普通语言的机器学习基准PDF文件第5页