Loading...
机构名称:
¥ 1.0

摘要:随着大数据和计算机基础设施推动的强化学习,以数据为中心的人工智能正在推动软件开发方式的根本性转变。为了将数据视为与代码同等重要的一等公民,在这种情况下必须重新考虑软件工程。一个令人惊讶的发现是在整个机器学习过程中花费了多少时间在数据准备上。即使是最强大的机器学习算法,在没有高质量数据的情况下也难以充分发挥作用。因此,以数据为中心的先进技术被更频繁地使用。不幸的是,许多现实世界的数据集很小、不干净、有偏见,有时甚至被污染。在本研究中,我们关注科学界对深度学习应用的数据收集和数据质量的关注。数据收集至关重要,因为深度学习的现代算法主要依赖于大规模数据收集,而不是分类技术。为了提高数据质量,我们研究了数据验证、清理和集成技术。即使数据无法完全清理,强大的模型训练策略也使我们能够在训练模型期间处理不完美的数据。此外,尽管这些问题在传统数据管理研究中没有得到太多关注,但偏见和公平是机器学习现代应用中的重要主题。为了防止不公正,我们研究了模型训练之前、期间和之后的公平控制和策略。我们相信信息管理界有能力解决这些问题。

从人工智能角度看深度学习数据收集的质量挑战

从人工智能角度看深度学习数据收集的质量挑战PDF文件第1页

从人工智能角度看深度学习数据收集的质量挑战PDF文件第2页

从人工智能角度看深度学习数据收集的质量挑战PDF文件第3页

从人工智能角度看深度学习数据收集的质量挑战PDF文件第4页

从人工智能角度看深度学习数据收集的质量挑战PDF文件第5页

相关文件推荐