如何使用抹布和自定义数据培训聊天机器人

通过Llamathe Post如何使用抹布和自定义数据训练聊天机器人,首先出现在数据科学方面。

来源:走向数据科学

rag代表着检索的生成,描述了一个过程,可以通过训练它从更具体的,较小的知识基础而不是其巨大的原始基础来优化LLM(大语言模型)。通常,像chatgpt这样的LLM在整个Internet上接受培训(数十亿个数据点)。这意味着它们容易出现小错误和幻觉。

这是一个可以使用抹布并有用的情况的示例:

我想建立一个美国州导游聊天机器人,其中包含有关美国州的一般信息,例如其首都,人口和主要的旅游景点。为此,我可以下载这些美国各州的Wikipedia页面,并使用这些特定页面中的文字培训我的LLM。

创建您的抹布llm

LlamainDex是构建抹布系统的最受欢迎的工具之一,它:

llamaindex
    简化了LLMS和外部数据源之间的集成,使开发人员能够以具有多种类型的数据的LLM消费工程进行优化的方式进行构造,索引和查询数据,例如PDF和文本文件,例如构建一条RAG管道,将其检索和注入相关数据的数据中,然后将其与LLM相关的数据传递给LLM/div
  • 简化了LLM和外部数据源之间的集成
  • 允许开发人员以针对LLM消费进行优化的方式构建,索引和查询其数据
  • 使用多种类型的数据,例如PDF和文本文件
  • 有助于构建一条抹布管道,将相关数据块检索和注入相关的数据提示,然后再将其传递给LLM进行生成
  • 下载您的数据

    首先获取要训练模型的数据。要以正确格式从Wikipedia(CC By 4.0)下载PDF,请确保单击打印,然后“另存为PDF”。

    CC由4.0

    不仅将Wikipedia导出为PDF -Llama不喜欢它的格式,而且会拒绝您的文件。

      floridacaliforniawashington D.C.新约克特萨斯
  • 佛罗里达
  • 加利福尼亚
  • 华盛顿特区
  • 纽约
  • 德克萨斯州
  • llamacloud