如何从文档创建 RAG 评估数据集

使用 LLM 自动创建任何语言的特定领域数据集继续阅读 Towards Data Science »

来源:走向数据科学

如何从文档创建抹布评估数据集

使用LLMS自动以任何语言创建特定域的数据集

我们在拥抱面枢纽上自动生成的抹布评估数据集(欧盟从CC签订了4.0的欧盟的PDF输入文件)。作者的图像
PDF输入文件 CC由4.0

在本文中,我将向您展示如何创建自己的抹布数据集,这些数据集由任何语言的文档中的上下文,问题和答案组成。

检索演出的生成(RAG)[1]是一种允许LLMS访问外部知识库的技术。

通过上传PDF文件并将其存储在矢量数据库中,我们可以通过向量相似性搜索检索这些知识,然后将检索到的文本插入LLM提示符作为附加上下文。

这为LLM提供了新的知识,并减少了构成事实(幻觉)的LLM的可能性。

基本的抹布管道。作者的图像“如何使用抹布构建本地开源LLM聊天机器人”
“如何使用抹布构建本地开源LLM聊天机器人”

但是,我们需要在RAG管道中设置许多参数,研究人员始终提出新的改进。我们如何知道要选择哪些参数,哪些方法确实可以改善我们特定用例的性能?

这就是为什么我们需要验证/开发/测试数据集来评估我们的破布管道的原因。数据集应来自我们感兴趣的域…