How to Query a Knowledge Graph with LLMs Using gRAG
Google、Microsoft、LinkedIn 和许多其他科技公司都在使用 Graph RAG。为什么?让我们通过从头开始构建一个来理解它。继续阅读 Towards Data Science »
Rethinking LLM Benchmarks: Measuring True Reasoning Beyond Training Data
Apple 的新 LLM 基准 GSM-Symbolic继续阅读 Towards Data Science »
5 No-Cost Learning Resources for LLM Agents
对 LLM 代理感到好奇?这里有一个免费课程、指南和博客列表,让您轻松开始学习并保持更新。
从业者判断大型语言模型输出的指南评估人工智能生成的输出对于构建大型语言模型的稳健应用程序至关重要,因为它允许将复杂的人工智能应用程序拆分为具有内置错误控制的简单阶段。在监督模式下评估生成输出相对简单,其中“正确答案”可以由人类评估者计算或提示。同时,在许多实际的 LLM 应用中,监督方法过于严格,需要能够解决开放式问题的评估。构建无监督评估器的最简单方法是要求 LLM 自我评估。然而,生成模型检测自身输出错误的能力尚不清楚。我们证明,通过迭代自我反思可以提高自我评估的质量。与“思想链”技术类似,该方法以推理时的计算量换取最终结果的稳健性。带有示例的 Google Colab 笔记本链接:h
LLM Evaluation, AI Side Projects, User-Friendly Data Tables, and Other October Must-Reads
是否想写出您的第一篇 TDS 文章?我们始终欢迎新作者的投稿。我们似乎正处于日历上的一个甜蜜点,即夏末和假期来临前的最后高峰之间——换句话说,这是一年中学习、修修补补和探索的最佳时机。我们 10 月份阅读次数最多的文章反映了这种专注的精神,涵盖了一系列实践主题。从可行的 AI 项目想法和数据科学收入流到易于理解的时间序列分析和 LLM 指南,这些故事很好地代表了我们作者的专业知识广度以及他们(和我们的读者)兴趣的多样性。如果您还没有阅读它们,现在就是最佳时机?每月亮点您可以在本周末构建的 5 个 AI 项目(使用 Python)如果您还没有撸起袖子,那么很快就会撸起袖子:我们 10 月份阅读次
How and Why to use LLMs for Chunk-Based Information Retrieval
如何以及为何使用 LLM 进行基于块的信息检索检索管道 - 作者提供的图片在本文中,我旨在解释如何以及为何使用大型语言模型 (LLM) 进行基于块的信息检索是有益的。我以 OpenAI 的 GPT-4 模型为例,但这种方法可以应用于任何其他 LLM,例如 Hugging Face、Claude 和其他人的模型。每个人都可以免费访问这篇文章。标准信息检索的注意事项主要概念涉及将文档列表(文本块)存储在数据库中,可以根据某些过滤器和条件进行检索。通常,使用工具来启用混合搜索(例如 Azure AI Search、LlamaIndex 等),它允许:使用 TF-IDF 等词频算法执行基于文本的搜索(
GSM-Symbolic: Analyzing LLM Limitations in Mathematical Reasoning and Potential Solutions
这篇关于 LLM 推理的论文的正确之处 — — 以及它所遗漏之处。合著者:Alex Watson、Yev Meyer、Dane Corneil、Maarten Van Segbroeck (Gretel.ai)来源:Gretel.ai简介大型语言模型 (LLM) 最近在 AI 推理方面取得了重大进展,包括数学问题解决。然而,Mirzadeh 等人最近发表的一篇题为“GSM-Symbolic:理解大型语言模型中数学推理的局限性”的论文提出了关于这些模型在数学推理方面的真正能力的问题。我们审查了这篇论文,发现它对正在进行的关于 AI 能力和局限性的讨论做出了宝贵的贡献,然而,我们的分析表明,它
Smart Audit System Empowered by LLM
制造质量审核对于确保大规模生产环境中的高产品标准至关重要。然而,传统的审计流程是劳动密集型的,严重依赖人类的专业知识,这对在复杂的全球供应链中保持透明度、问责制和持续改进构成了挑战。为了应对这些挑战,我们提出了一个由大型语言模型 (LLM) 赋能的智能审计系统。我们的方法引入了三个关键创新:一个简化审计程序和优化资源分配的动态风险评估模型;一个……
Divide-or-Conquer? Which Part Should You Distill Your LLM?
最近的方法表明,当鼓励大型语言模型 (LLM) 首先解决主任务的子任务时,它们可以更好地解决推理任务。在本文中,我们设计了一种类似的策略,将推理任务分解为问题分解阶段和问题解决阶段,并表明该策略能够胜过单阶段解决方案。此外,我们假设与问题解决相比,分解应该更容易提炼成较小的模型,因为后者需要大量的领域知识,而前者只需要……
Super charge your LLMs with RAG at scale using AWS Glue for Apache Spark
在本文中,我们将探讨在 LangChain(一个基于 LLM 构建应用程序的开源框架)上构建可重复使用的 RAG 数据管道,并将其与 AWS Glue 和 Amazon OpenSearch Serverless 集成。最终解决方案是可扩展 RAG 索引和部署的参考架构。
How LLM Unlearning Is Shaping the Future of AI Privacy
大型语言模型 (LLM) 的快速发展为人工智能 (AI) 带来了重大进步。从自动化内容创建到在医疗保健、法律和金融领域提供支持,LLM 正在凭借其理解和生成类似人类的文本的能力重塑行业。然而,随着这些模型的使用范围不断扩大,人们对隐私和 […] 的担忧也在增加。文章 LLM Unlearning 如何塑造 AI 隐私的未来首先出现在 Unite.AI 上。
No free lunch in LLM watermarking: Trade-offs in watermarking design choices
生成模型的进步使得 AI 生成的文本、代码和图像能够在许多应用中反映人类生成的内容。水印是一种将信息嵌入模型输出以验证其来源的技术,旨在减轻对此类 AI 生成内容的滥用。当前最先进的水印方案通过稍微扰动 LLM 输出标记的概率来嵌入水印,这可以在验证过程中通过统计测试检测到。不幸的是,我们的工作表明,LLM 水印方案中的常见设计选择使生成的系统出人意料地容易受到水印删除或欺骗攻击——导致在稳健性、实用性和可用性方面做出根本性的权衡。为了解决这些权衡问题,我们严格研究了一组针对常见水印系统的简单但有效的攻击,并提出了 LLM 水印实践中的指导方针和防御措施。提示艾伦图灵出生于... Unwate
MUSCLE: A Model Update Strategy for Compatible LLM Evolution
大型语言模型 (LLM) 会定期更新以提高性能,通常是通过更改数据或架构来实现的。在更新过程中,开发人员通常优先考虑改进整体性能指标,而较少关注与早期模型版本的兼容性。从一个模型版本到下一个模型版本,实例级性能下降(实例回归)可能会干扰用户对特定语言模型功能的心理模型。用户每次更新都必须调整他们的心理模型,这可能会导致不满,尤其是当……
COMMUNICATING THE AVAILABILITY OF AUTHORIZED NIPR AND SIPR LLM CAPABILITIES
R 211514Z 10 月 24 日MARADMIN 496/24 MSGID/GENADMIN/CMC DCI 华盛顿特区// SUBJ/沟通
LLM vs LLM: Codenames Tournament
3 个不同 LLM 代理之间的迷你多代理竞赛继续阅读 Towards Data Science »
Contextualization of ASR with LLM Using Phonetic Retrieval-Based Augmentation
大型语言模型 (LLM) 已展现出对包括音频和文本在内的多模态信号进行建模的卓越能力,允许模型根据语音输入生成口头或文本响应。然而,当输入模态为语音时,识别个人命名实体(例如电话簿中的联系人)对模型来说仍然是一个挑战。在这项工作中,我们从语音识别任务开始,并提出了一种基于检索的解决方案来将 LLM 情境化:我们首先让 LLM 在没有任何上下文的情况下检测语音中的命名实体,然后使用此命名实体作为查询来检索……