详细内容或原文请订阅后点击阅览
机器学习中的数据中毒:人们为何以及如何操纵训练数据
你知道你的数据在哪里吗?机器学习中的数据中毒:人们为何以及如何操纵训练数据一文首先出现在《走向数据科学》上。
来源:走向数据科学被忽视了,但却是实现机器学习和人工智能发挥作用的极其重要的部分。生成型人工智能公司不断在世界各地寻找更多数据,因为构建模型需要大量原材料。任何构建或调整模型的人都必须首先收集大量数据才能开始。
然而,这一现实导致了一些相互矛盾的激励措施。保护数据的质量和真实性是安全性的重要组成部分,因为这些原材料将决定您为用户或客户提供的机器学习模型的成败。不良行为者可以以您可能没有注意到的方式从您的数据集中战略性地插入、变异或删除数据,但这将系统地改变您的模型的行为。
与此同时,艺术家、音乐家和作家等创作者正在与猖獗的版权侵犯和知识产权盗窃行为进行持续的斗争,这些行为主要是由生成人工智能公司发起的,这些公司需要找到更多的数据来投入训练过程的贪婪之口。这些创作者正在寻找可以采取的行动来防止或阻止这种盗窃行为,而不仅仅是受到行动缓慢的法院的摆布。
此外,随着公司竭尽全力用人工智能介导的搜索取代传统搜索引擎,那些以搜索为基础的业务的公司正在苦苦挣扎。如果您过去几十年在搜索可见性方面所做的投资不再相关,您如何吸引客户并向公众展示您想要的品牌形象?
这三个案例都向我们指出了一个概念——“数据中毒”。
什么是数据中毒?
数据中毒可以采取多种不同的形式,因此我将倒退并讨论数据中毒的三个具体动机、它们的工作原理以及结果:
