连接点以获取更好的电影建议

连接点以获取更好的电影建议:腐烂的西红柿电影评论的轻量级图形抹布连接点以获取更好的电影建议的帖子首先出现在数据科学上。

来源:走向数据科学

的承诺,检索增强生成(RAG)是,它允许AI系统使用最新或特定于域的信息回答问题,而无需重新训练模型。但是,大多数抹布管道仍然将文档和信息视为平坦和断开的连接 - 基于向量相似性,将孤立的块取回孤立的块,没有对这些块的关系的感觉。

为了弥补抹布对文档和块之间的连接的无知,开发人员已转向图形抹布的方法,但经常发现图形抹布的好处不值得实现它的额外复杂性。

不值得实施IT的增加复杂性

在我们最近的有关开源图形抹布项目和GraphReTriever的文章中,我们引入了一种新的,更简单的方法,将您现有的矢量搜索与基于轻巧的基于元数据的图形遍历结合在一起,这不需要图形构造或存储。可以通过指定要使用哪些文档元数据值来定义图形“边缘”,并且在Graph Rag检索过程中会遍历这些连接,可以在运行时(甚至查询时间)定义图形连接。

开源图形抹布项目和GraphReTriever

In this article, we expand on one of the use cases in the Graph RAG Project documentation—a demo notebook can be found here—which is a simple but illustrative example: searching movie reviews from a Rotten Tomatoes dataset, automatically connecting each review with its local subgraph of related information, and then putting together query responses with full context and relationships between movies, reviews, reviewers, and other data and metadata attributes.

可以在此处找到演示笔记本

数据集:腐烂的西红柿评论和电影元数据

该案例研究中使用的数据集来自公共Kaggle数据集,名为“大型腐烂的西红柿电影和评论”。它包括两个主要的CSV文件:

“大规模腐烂的西红柿电影和评论”

挑战:将电影评论置于上下文

Movie_id