摘要 对于行业和政府的决策者来说,根据易于获取的开源指标(例如出版物)识别新兴技术的能力非常重要。这项工作的科学贡献是提出了一种基于出版物数量检测新兴技术成熟度的机器学习方法。出版物数量的时间序列具有区分新兴技术和成长技术的普遍特征。我们根据这些特征训练了一个人工神经网络分类器(一种监督式机器学习算法),以预测任意技术的成熟度(新兴技术与成长技术)。通过由 22 种技术组成的训练集,我们对 6 种测试技术获得了 58.3% 到 100% 的分类准确率,平均准确率为 84.6%。为了提高分类器性能,我们用合成的时间序列技术生命周期曲线扩充了训练语料库,这些曲线是通过计算原始训练集中曲线的加权平均值形成的。在合成数据集上训练分类器可提高准确率,范围从 83.3% 到 100%,测试技术的平均准确率为 90.4%。我们的分类器的性能超过了文献中竞争的机器学习方法,后者报告的平均分类准确率最高仅为 85.7%。此外,与当前方法相比,我们的方法不需要专业知识来生成训练标签,并且可以自动化和扩展。
主要关键词