我为 Kindle 摘要构建了 AI 管道

一个本地的零成本项目,可以自动清理、构建和总结您的阅读内容“我为 Kindle 亮点构建 AI 管道”一文首先出现在“迈向数据科学”上。

来源:走向数据科学

我阅读,我喜欢突出显示内容(我使用 Kindle)。我觉得通过阅读我无法记住超过 10% 的信息,但通过重读亮点或使用它们总结这本书才能让我真正理解我所读的内容。

问题是,有时,我最终会突出显示很多内容。

我所说的很多是指很多。我们甚至不能称它们为“基调”。

因此,在这些情况下,读完这本书后,我最终要么浪费大量时间进行总结,要么干脆放弃(后者更为常见)。

最近读了一本我很喜欢的书,想完整保留最让我感动的内容。但是,这又是我过度强调的那些书之一。

而且我不想把大量稀缺的空闲时间花在这上面。所以我决定自动化这个过程并使用我的技术/数据技能。因为我对结果很满意,所以我想分享它,以便任何感兴趣的人也可以利用这个工具。

免责声明:我的 Kindle 已经很旧了,所以这也应该适用于新的 Kindle。事实上,新的 Kindle 版本有一个稍微更好的方法(也在这篇文章中进行了解释)。

项目

让我们定义目标:根据 Kindle 亮点生成摘要。

当我思考时,我想象了一本书的以下简单管道:

  • 获取本书亮点
  • 创建 RAG 或类似的内容
  • 导出摘要
  • 第一部分的结果有所不同,但这都是由于需要考虑数据的结构进行预处理。

    因此,我将把这篇文章分为两个主要部分:

  • 数据检索和处理
  • AI模型和输出
  • 1. 数据检索与处理

    我的直觉告诉我有一种方法可以从我的 Kindle 中提取亮点。最后,它们被存储在那里,所以我只需要一种方法来将它们取出。

    有多种方法可以做到这一点,但我想要一种方法,既适用于在 Kindle 官方商店购买的书籍,也适用于我从笔记本电脑发送的 PDF 或文件。

  • 所有书籍都位于同一个文件中。
  • 这是剪辑的剖析: