详细内容或原文请订阅后点击阅览
版权所有的AI:让我们做到
2022年4月22日,我收到了山姆·奥特曼(Sam Altman)的蓝色文字,询问了在O’Reilly Books上训练GPT-4的可能性。几天后,我们打了电话,讨论了这种可能性。当我记得我们的谈话时,我告诉山姆我很感兴趣,但保留了。我向他解释说,我们可以[…]
来源:O'Reilly Media _AI & ML2022年4月22日,我收到了山姆·奥特曼(Sam Altman)的蓝色文字,询问了在O’Reilly Books上训练GPT-4的可能性。几天后,我们打了电话,讨论了这种可能性。
当我记得我们的谈话时,我告诉山姆我很感兴趣,但有所保留。我向他解释说,如果他们有一些跟踪使用和补偿作者的机制,我们只能许可我们的数据。我建议即使使用LLM,也应该有可能,这可能是AI参与性内容经济的基础。 (后来我在一篇名为“如何修复'AI的原始罪”的文章中写道。他从来没有这样做。
如何修复“ AI的原始罪”学习速度更快。深入挖掘。参见更远的地方。
当然,现在有了报道称,梅塔(Meta)在俄罗斯盗版书籍数据库的利比根(Libgen)培训了骆驼,人们不得不怀疑Openai是否也这样做了。因此,在社会科学研究委员会的AI披露项目中与同事合作,我们决定看看。我们的结果今天发表在Sruly Rosenblat,Tim O’Reilly和Ilan Strauss的工作论文“ LLM前培训数据中的公共访问权限”中发表。
AI披露项目 超越LLM培训数据中的公共访问有多种统计技术来估计AI已接受特定内容培训的可能性。我们选择了一个叫做de-cop的人。为了测试是否已经在给定的书上培训模型,我们为模型提供了人为书面书籍中引用的段落以及同一段落的三个排列,然后要求该模型从问题中识别出“逐字词”(即正确的)段落。我们为每本书重复了几次。
我们根据时间段和可访问性将O’Reilly Books的样本分开,这使我们能够正确测试模型访问违规行为:
注释 t 大西洋 can 应该 飞轮