详细内容或原文请订阅后点击阅览
AI 训练研究货币化:风险和最佳实践
随着对生成式 AI 的需求不断增长,对用于训练这些系统的高质量数据的需求也在增长。学术出版商已开始将其研究内容货币化,以提供大型语言模型 (LLM) 的训练数据。虽然这一发展为出版商创造了新的收入来源,并为生成式 AI 赋能,但它 […]文章《将研究货币化用于 AI 训练:风险和最佳实践》首次出现在 Unite.AI 上。
来源:Unite.AI随着对生成式人工智能的需求不断增长,对用于训练这些系统的高质量数据的需求也在不断增长。学术出版商已开始将其研究内容货币化,以提供大型语言模型 (LLM) 的训练数据。虽然这一发展为出版商创造了新的收入来源,并为生成式人工智能提供了科学发现的力量,但它引发了有关所用研究的完整性和可靠性的关键问题。这提出了一个关键问题:出售的数据集是否值得信赖,这种做法对科学界和生成式人工智能模型有何影响?
货币化研究交易的兴起
包括 Wiley、Taylor & Francis 等在内的主要学术出版商报告称,通过将其内容授权给开发生成式人工智能模型的科技公司,获得了可观的收入。例如,Wiley 仅今年一年就从此类交易中获得了超过 4000 万美元的收入。这些协议使人工智能公司能够访问多样化和广泛的科学数据集,从而可能提高其人工智能工具的质量。
报道出版商的宣传很简单:授权可以确保更好的人工智能模型,造福社会,同时用版税奖励作者。这种商业模式对科技公司和出版商都有好处。然而,将科学知识货币化的趋势日益增长,存在风险,主要是当可疑研究渗透到这些人工智能训练数据集中时。
虚假研究的阴影
10,000 篇论文 论文工厂 约 2% 有缺陷的研究对人工智能训练和信任的影响
确保人工智能的可信数据
人工智能开发人员需要对他们使用的数据负责。这意味着与专家合作,仔细检查研究,并比较多项研究的结果。人工智能工具本身也可以设计为识别可疑数据并降低可疑研究进一步传播的风险。
生成式 AI 许可协议跟踪器 选择加入政策 剑桥大学出版社 包容性和公平性