详细内容或原文请订阅后点击阅览
如何从文档创建 RAG 评估数据集
使用 LLM 自动创建任何语言的特定领域数据集继续阅读 Towards Data Science »
来源:走向数据科学如何从文档创建抹布评估数据集
使用LLMS自动以任何语言创建特定域的数据集
在本文中,我将向您展示如何创建自己的抹布数据集,这些数据集由任何语言的文档中的上下文,问题和答案组成。
检索演出的生成(RAG)[1]是一种允许LLMS访问外部知识库的技术。
通过上传PDF文件并将其存储在矢量数据库中,我们可以通过向量相似性搜索检索这些知识,然后将检索到的文本插入LLM提示符作为附加上下文。
这为LLM提供了新的知识,并减少了构成事实(幻觉)的LLM的可能性。
但是,我们需要在RAG管道中设置许多参数,研究人员始终提出新的改进。我们如何知道要选择哪些参数,哪些方法确实可以改善我们特定用例的性能?
这就是为什么我们需要验证/开发/测试数据集来评估我们的破布管道的原因。数据集应来自我们感兴趣的域…