工作数据是Genai

9个原因为什么工作数据是LLM培训最有价值的数据源,它具有独特的能力推动LLM性能到前所未有的高度。后工作数据是Genai的下一个前沿,首先是迈向数据科学。

来源:走向数据科学

是LLM培训的最有价值的数据源,它具有独特的能力推动LLM性能到前所未有的高度。在本文中,我将为此主张提供九个支持论点。然后,我将反思工作数据所有者与想要培训此数据的AI公司之间的利益冲突。然后,我将讨论潜在的决议和双赢的情况。

虽然预计公开访问的培训数据将用完,但仍有大量未开发的私人数据。在私人数据中,最大,最佳的机会是 - 我认为是工作数据:知识工作者的工作输出,从开发码到支持代理商的对话,到销售人员的音调甲板。

培训数据预计将用完

这些见解中的许多见解都来自达拉·B·罗伊(Dara B Roy)关于知识工作者在生成AI上的醒目的谈话要点,该论点广泛地讨论了在LLM培训的背景下使用工作数据及其对知识工作者劳动力市场的影响。

为知识工作者宣传对生成ai

那么,为什么工作数据对于LLM培训如此有价值?出于9个原因。

工作数据是人类有史以来产生的最好的质量数据

工作数据显然比我们的公共互联网内容要好得多。

实际上,如果我们查看预处理中使用的公共互联网内容:最好的质量来源(您在培训期间要进行样本)就是某人的工作输出:《纽约时报》的文章,专业作家书籍。

工作输出

为什么工作数据质量比非工作互联网内容好得多?

  • 更加事实和值得信赖。我们在工作中所说的和产生的东西既是事实和值得信赖的。毕竟,作为员工,我们对此负责,我们的生计取决于它。
  • 更多的事实和值得信赖的 由审查的专业人员制作 反映审查的知识 反映人类的偏好更多 紧密

    例如

    不公平使用