详细内容或原文请订阅后点击阅览
如何使用抹布和自定义数据培训聊天机器人
通过Llamathe Post如何使用抹布和自定义数据训练聊天机器人,首先出现在数据科学方面。
来源:走向数据科学?
rag代表着检索的生成,描述了一个过程,可以通过训练它从更具体的,较小的知识基础而不是其巨大的原始基础来优化LLM(大语言模型)。通常,像chatgpt这样的LLM在整个Internet上接受培训(数十亿个数据点)。这意味着它们容易出现小错误和幻觉。
这是一个可以使用抹布并有用的情况的示例:
我想建立一个美国州导游聊天机器人,其中包含有关美国州的一般信息,例如其首都,人口和主要的旅游景点。为此,我可以下载这些美国各州的Wikipedia页面,并使用这些特定页面中的文字培训我的LLM。
创建您的抹布llm
LlamainDex是构建抹布系统的最受欢迎的工具之一,它:
llamaindex- 简化了LLMS和外部数据源之间的集成,使开发人员能够以具有多种类型的数据的LLM消费工程进行优化的方式进行构造,索引和查询数据,例如PDF和文本文件,例如构建一条RAG管道,将其检索和注入相关数据的数据中,然后将其与LLM相关的数据传递给LLM/div
下载您的数据
首先获取要训练模型的数据。要以正确格式从Wikipedia(CC By 4.0)下载PDF,请确保单击打印,然后“另存为PDF”。
CC由4.0不仅将Wikipedia导出为PDF -Llama不喜欢它的格式,而且会拒绝您的文件。
- floridacaliforniawashington D.C.新约克特萨斯