How to automate Accounts Payable using LLM-Powered Multi Agent Systems
了解 LLM 驱动的多代理系统如何改变应付账款自动化。了解它们的功能、优势和实际应用,并了解 AI 如何彻底改变财务工作流程。
Improve factual consistency with LLM Debates
在这篇文章中,我们使用具有基本事实的监督数据集展示了大型语言模型 (LLM) 辩论的潜力。在这篇文章中,我们将通过有说服力的 LLM 来指导 LLM 辩论技巧,其中包括两名专家辩论者 LLM(Anthropic Claude 3 Sonnet 和 Mixtral 8X7B)和一名评委 LLM(Mistral 7B v2),以衡量、比较和对比其与其他技巧(如自洽(与天真的和专家评委)和 LLM 咨询)的表现。
LangChain vs LlamaIndex: Choosing the Right Framework for Your LLM Application
简介:大型语言模型 (LLM) 现在已广泛用于基于聊天机器人的基本用途,但将它们集成到更复杂的应用程序中可能很困难。幸运的是,对于开发人员来说,有一些工具可以简化 LLM 与应用程序的集成,其中最突出的两个是 LangChain 和 LlamaIndex。这两个
How FP8 boosts LLM training by 18% on Amazon SageMaker P5 instances
近年来,LLM 培训取得了显著的进步,组织在模型大小、性能和效率方面不断突破极限。在本文中,我们将探讨 FP8 优化如何显著加快 Amazon SageMaker P5 实例上的大型模型训练。
Do LLMs Internally "Know" When They Follow Instructions?
本文被 NeurIPS 2024 的基础模型干预 (MINT) 研讨会接受。指令遵循对于构建具有大型语言模型 (LLM) 的 AI 代理至关重要,因为这些模型必须严格遵守用户提供的指南。然而,LLM 往往无法遵循哪怕是简单的指令。为了改善指令遵循行为并防止不良输出,我们需要更深入地了解 LLM 的内部状态与这些结果之间的关系。我们对 LLM 内部状态的分析揭示了输入嵌入空间中与成功相关的维度......
Do LLMs Estimate Uncertainty Well in Instruction-Following?
这篇论文被 NeurIPS 2024 的安全生成 AI 研讨会 (SGAIW) 接受。大型语言模型 (LLM) 可以成为各个领域的有价值的个人 AI 代理,前提是它们能够精确遵循用户指令。然而,最近的研究表明 LLM 的指令遵循能力存在很大局限性,这引发了人们对其在高风险应用中的可靠性的担忧。准确评估 LLM 在遵守指示方面的不确定性对于降低部署风险至关重要。据我们所知,我们首次系统地评估了不确定性……
Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications
这篇论文被 NeurIPS 2024 的机器学习和压缩研讨会接受。压缩大型语言模型 (LLM) 通常会导致性能下降,尤其是对于知识密集型任务。在这项工作中,我们深入研究了压缩如何破坏 LLM 的固有知识以及可能的补救措施。我们首先对损害的性质提出两种猜想:一是某些知识在 LLM 压缩后被遗忘(或抹去),因此需要压缩模型从具有附加参数的数据中(重新)学习;另一个假设知识是内部的……
Towards Low-Bit Communication for Tensor Parallel LLM Inference
这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。张量并行提供了一种提高服务器大型语言模型 (LLM) 推理效率的有效方法,尽管增加了额外的通信成本。然而,随着服务器 LLM 规模不断扩大,它们将需要分布在更多设备上,从而增加了通信成本。解决这个问题的一种方法是量化,但目前的 LLM 方法往往避免量化张量并行需要传达的特征。利用……
Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum
大型语言模型 (LLM) 通常在由固定长度的标记序列组成的数据集上进行训练。这些数据集是通过随机连接不同长度的文档,然后将它们分块为预定目标长度的序列 (concat-and-chunk) 来创建的。最近的注意力实现掩盖了跨文档注意力,减少了标记块的有效长度。此外,由于注意力的二次成本,对长序列的训练在计算上变得难以承受。在本研究中,我们引入了数据集分解,一种新颖的可变序列长度……
DXC transforms data exploration for their oil and gas customers with LLM-powered tools
在本博文中,我们向您展示了 DXC 和 AWS 如何合作使用大型语言模型 (LLM) 构建 AI 助手,使用户能够访问和分析来自各种数据源的不同数据类型。AI 助手由智能代理提供支持,该代理将用户问题路由到针对不同数据类型(例如文本、表格和特定于域的格式)优化的专用工具。它利用 LLM 理解自然语言、编写代码和推理对话上下文的能力。
简化您的命令行使用一键式 LLM Bash Helper 改变您的终端体验!此实时工具可让您用通俗易懂的语言描述任务并立即生成正确的 bash 命令,从而节省时间并消除所有技能水平用户的猜测。
Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models
这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。大型语言模型 (LLM) 通常使用固定的计算预算逐个生成输出,导致资源利用率低下。为了解决这一缺点,混合专家 (MoE) 模型、推测解码和早期退出策略方面的最新进展利用了计算需求可能根据输入的复杂性和性质而有很大差异的洞察力。然而,确定动态执行的最佳路由模式仍然是一个开放的问题……
AnythingLLM: The LLM Application You’ve Been Waiting For
使用 AnythingLLM(一个用于构建安全、私密助手的多功能开源平台)将任何文档转变为可进行对话的 AI 工具。
LLM-as-a-Judge: A Scalable Solution for Evaluating Language Models Using Language Models
LLM-as-a-Judge 框架是一种可扩展的自动化人工评估替代方案,人工评估通常成本高昂、速度慢,并且受限于可评估的响应量。通过使用 LLM 评估另一个 LLM 的输出,团队可以以一致且可复制的方式有效地跟踪准确性、相关性、语气和对特定准则的遵守情况 […]LLM-as-a-Judge:使用语言模型评估语言模型的可扩展解决方案首先出现在 Unite.AI 上。
It's Surprisingly Easy to Jailbreak LLM-Driven Robots
人工智能聊天机器人(例如 ChatGPT)和其他由大型语言模型 (LLM) 驱动的应用程序人气飙升,促使许多公司探索由 LLM 驱动的机器人。然而,一项新研究现在揭示了一种自动化入侵此类机器的方法,成功率高达 100%。通过绕过安全护栏,研究人员可以操纵自动驾驶系统与行人相撞,操纵机器狗寻找危险的地方引爆炸弹。本质上,LLM 是智能手机用来预测用户正在输入的单词其余部分的自动完成功能的增强版。经过训练可以分析文本、图像和音频的 LLM 可以提供个性化的旅行建议,根据冰箱内容的图片设计食谱,并帮助生成网站。LLM 处理文本的非凡能力促使许多公司使用人工智能系统通过语音命令帮助控制机器人,将用户的