详细内容或原文请订阅后点击阅览
工作数据是Genai
9个原因为什么工作数据是LLM培训最有价值的数据源,它具有独特的能力推动LLM性能到前所未有的高度。后工作数据是Genai的下一个前沿,首先是迈向数据科学。
来源:走向数据科学是LLM培训的最有价值的数据源,它具有独特的能力推动LLM性能到前所未有的高度。在本文中,我将为此主张提供九个支持论点。然后,我将反思工作数据所有者与想要培训此数据的AI公司之间的利益冲突。然后,我将讨论潜在的决议和双赢的情况。
虽然预计公开访问的培训数据将用完,但仍有大量未开发的私人数据。在私人数据中,最大,最佳的机会是 - 我认为是工作数据:知识工作者的工作输出,从开发码到支持代理商的对话,到销售人员的音调甲板。
培训数据预计将用完这些见解中的许多见解都来自达拉·B·罗伊(Dara B Roy)关于知识工作者在生成AI上的醒目的谈话要点,该论点广泛地讨论了在LLM培训的背景下使用工作数据及其对知识工作者劳动力市场的影响。
为知识工作者宣传对生成ai那么,为什么工作数据对于LLM培训如此有价值?出于9个原因。
工作数据是人类有史以来产生的最好的质量数据
工作数据显然比我们的公共互联网内容要好得多。
实际上,如果我们查看预处理中使用的公共互联网内容:最好的质量来源(您在培训期间要进行样本)就是某人的工作输出:《纽约时报》的文章,专业作家书籍。
工作输出为什么工作数据质量比非工作互联网内容好得多?
例如
不公平使用