无辜的独角兽被认为是有害的?如何从 R 中试验 GPT-2

社会是否准备好应对人工生成的信息(假图像、假视频、假文本)带来的挑战?虽然这篇文章不会回答这个问题,但它应该有助于形成对截至撰写本文时(2019 年秋季)假文本所造成的威胁的看法。我们介绍了 gpt2,这是一个 R 包,它包装了 OpenAI 对 GPT-2 的公开实现,GPT-2 是一种语言模型,今年早些时候,它的作品质量空前,令 NLP 社区大吃一惊。

来源:RStudio AI博客

今年 2 月,OpenAI 推出了 GPT-2(Radford 等人,2019 年),这是一个基于 Transformer 的大型语言模型,该模型基于大量网络抓取的文本进行训练,他们的公告引起了极大关注,不仅仅是在 NLP 社区。这主要是由于两个事实。首先,生成的文本样本令人惊叹。

GPT-2 (Radford 等人,2019 年) Radford 等人,2019 年 Transformer

呈现以下输入

令人震惊的是,科学家 [原文如此] 发现一群独角兽生活在安第斯山脉一个偏远的、以前未开发的山谷中。更让研究人员惊讶的是,这些独角兽能说一口流利的英语。

令人震惊的是,科学家 [原文如此] 发现一群独角兽生活在安第斯山脉一个偏远的、以前未被探索过的山谷中。更让研究人员惊讶的是,这些独角兽能说一口流利的英语。

模型继续如下:

科学家以其独特的角将该种群命名为奥维德独角兽。这些长着四角、银白色的独角兽以前不为科学界所知。现在,经过近两个世纪,引发这一奇怪现象的谜团终于解开了。拉巴斯大学的进化生物学家豪尔赫·佩雷斯博士和几位同伴在探索安第斯山脉时,发现了一个小山谷,没有其他动物或人类。佩雷斯注意到山谷里有一个看似天然喷泉的东西,周围环绕着两座岩石山峰和银色的雪。 […]

第二,“由于我们担心恶意应用程序”(引述)他们没有发布完整模型,而是一个参数数量不到十分之一的较小模型。他们既没有公开数据集,也没有公开训练代码。

虽然乍一看,这可能看起来像是一种营销手段(我们创造了如此强大的东西,以至于向公众发布太危险了!),但我们不要让事情变得如此简单。

拥有强大的力量……

可能 实验

故事展开

新帖子 ::