如何使用 LlamaIndex 工作流简化我的研究和演示

以可靠性、灵活性和可控性协调 AI 工作流的示例LlamaIndex 最近推出了一项新功能:工作流。它对于那些想要创建既可靠又灵活的 AI 解决方案的人来说非常有用。为什么?因为它允许您使用控制流定义自定义步骤。它支持循环、反馈和错误处理。它就像一个支持 AI 的管道。但与通常以有向无环图 (DAG) 形式实现的典型管道不同,工作流还支持循环执行,使其成为实现代理和其他更复杂过程的良好候选。介绍工作流测试版:使用 LlamaIndex 创建复杂 AI 应用程序的新方法 - LlamaIndex,LLM 应用程序的数据框架在本文中,我将展示如何使用 LlamaIndex 工作流简化我研究某个主题的最新进展的过程,然后将该研究制作成 PowerPoint 演示文稿。当谈到寻找新的研究出版物或论文时,ArXiv.org 是我的主要来源。但是,这个网站上有很多论文。截至 2024 年 9 月,ArXiv 上大约有 250 万篇论文,其中包括 8 月份提交的 17,000 篇(统计数据在这里)。即使仅限于一个主题,也要阅读大量内容。但这不是一个新问题。长期以来,学术研究人员必须查阅大量文献才能开展自己的研究。大型文献的兴起

来源:走向数据科学

主工作流

主工作流程由两个嵌套子工作流:

    summary_gen:此子工作流找到有关给定主题的研究论文并生成摘要。它通过Web查询进行了搜索论文的搜索,并使用LLM按照指示获得洞察力和摘要。Slide_gen:此子WorkFlow负责使用上一步中的摘要来生成PowerPoint Slide Deck。它使用提供的PowerPoint模板格式化幻灯片,并通过使用Python-PPTX库创建和执行Python代码来生成它们。
  • summary_gen:此子工作流找到有关给定主题的研究论文并生成摘要。它通过Web查询进行搜索论文,并使用LLM按照指示获得洞察力和摘要。
  • summary_gen
  • slide_gen:此子工作流负责使用上一步中的摘要生成PowerPoint幻灯片甲板。它使用提供的PowerPoint模板格式化幻灯片,并通过使用Python-PPTX库创建和执行Python代码来生成它们。
  • slide_gen python-pptx
    主工作流的概述(作者图像)

    摘要生成子工作流

    让我们仔细看看这些子工作流。首先,summary_gen工作流程非常简单。它遵循一个简单的线性过程。它基本上是“数据处理”工作流程,一些步骤将请求发送到LLM。

    摘要生成工作流(作者图像)

    工作流程首先获得用户输入(研究主题)并贯穿以下步骤:

  • tavily_query:与Tavily API查询,以将与该主题相关的学术论文作为结构化响应。
  • tavily_query
  • get_paper_with_citations:对于从tavily查询返回的每张纸张,步骤将使用Spenticscholar API检索纸元数据以及引用纸张的纸张。
  • get_paper_with_citations filter_papers process_citation() functionCallingProgram download_papers Paper2Summary_disPatcher self.send_event() Paper2summary