详细内容或原文请订阅后点击阅览
为什么您需要抹布作为数据科学家保持相关性
检索型发电(RAG)如何降低LLM的成本,最大程度地减少幻觉,并使您在AI时代可就业。
来源:KDnuggets如果您在与数据相关的字段中工作,则应定期更新自己。数据科学家使用不同的工具来进行数据可视化,数据建模甚至仓库系统等任务。
这样,AI已将数据科学从A更改为Z。如果您正在寻找与数据科学相关的工作,则可能会听到术语“抹布”。
在本文中,我们将分解抹布。从介绍它的学术文章开始,以及现在如何使用大型语言模型(LLMS)来降低成本。但是首先,让我们介绍基础知识。
什么是检索效果的一代(抹布)?
帕特里克·刘易斯(Patrick Lewis)在2020年首次在这篇学术文章中首次介绍了抹布。它结合了两个关键要素:一个猎犬和一个发电机。
这个这背后的想法很简单。抹布可以从文档中收集相关信息,而不是从参数中生成答案。
什么是猎犬?
猎犬用于从文档中收集相关信息。但是如何?
让我们考虑一下。您有一张巨大的Excel纸。假设是20 MB,有数千行。您想搜索call_date for User_id = 10234。
user_id = 10234
多亏了此猎犬,而不是查看整个文档,RAG只会搜索相关部分。
但是这对我们有什么帮助?如果您搜索整个文档,则将花费大量令牌。如您所知,LLM的API使用情况使用令牌计算。
让我们访问https://platform.openai.com/tokenizer,看看如何完成此计算。例如,如果您粘贴了本文的介绍。它的价格为123个令牌。
https://platform.openai.com/tokenizer 您必须检查一下以使用LLM的API计算成本。例如,如果您考虑使用Word文档(例如10 MB),则可能是数千个令牌。每次使用LLM的API上传此文档时,成本都会倍增。 这个猎犬如何做到这一点? 什么是发电机? 上下文窗口Evolution 行业相关实践 UPWORK fiverr 营销代理https://platform.openai.com/tokenizer