LLM关键词检索结果

LLM 主题不是观察

LLM Themes Are Not Observations

一位从业者对因果分析中生成变量的警告LLM 后的主题不是观察结果首先出现在《走向数据科学》上。

多模态评估器:MLLM 作为 Strands Evals 中图像到文本任务的法官

Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals

如果您正在构建视觉购物、图像或文档理解或图表分析,您需要一种方法来验证模型的响应是否确实基于源图像。纯文本评估器无法告诉您标题是否忠实地描述了图像、提取的发票总额是否与文档匹配、或者屏幕摘要是否[...]

我两次构建了相同的 B2B 文档提取器:规则与 LLM

I Built the Same B2B Document Extractor Twice: Rules vs. LLM

使用 pytesseract 的基于规则的 PDF 提取与使用 Ollama 和 LLaMA 3 的基于 LLM 的方法之间的实际比较,基于现实的 B2B 订单场景。我构建相同的 B2B 文档提取器两次:规则与 LLM 的帖子首先出现在 Towards Data Science 上。

BalCapRL:基于 RL 的 MLLM 图像描述的平衡框架

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

图像字幕是计算机视觉中最基本的任务之一。由于其开放性,它在多模态大语言模型(MLLM)时代受到了极大的关注。为了追求更加详细和准确的字幕,最近的工作越来越多地转向强化学习(RL)。然而,现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念,从而导致字幕核心维度之间的权衡。例如,以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……

Oracle 提供语义搜索,无需 LLM

Oracle предлагает семантический поиск без LLM

系统理解自然语言的问题,立即提供必要的文档。

LLM 摘要器跳过识别步骤

LLM Summarizers Skip the Identification Step

一位从业者的论点是,当你跳过询问数据可以支持什么的部分时,会议总结者会以同样的方式回归会失败。LLM 总结者跳过识别步骤的帖子首先出现在走向数据科学上。

AWS 生成 AI 模型敏捷性解决方案:迁移 LLM 以进行生成 AI 生产的综合指南

AWS Generative AI Model Agility Solution: A comprehensive guide to migrating LLMs for generative AI production

在这篇文章中,我们介绍了生成式 AI 生产中 LLM 迁移或升级的系统框架,包括基本工具、方法和最佳实践。该框架通过提供用于快速转换和优化的强大协议来促进不同法学硕士之间的转换。

这家初创公司的新机械解释工具可让您调试 LLM

This startup’s new mechanistic interpretability tool lets you debug LLMs

总部位于旧金山的初创公司 Goodfire 刚刚发布了一款名为 Silico 的新工具,它可以让研究人员和工程师在训练期间查看 AI 模型内部并调整其参数(决定模型行为的设置)。 This could give model makers more fine-grained control over how this technology is built than was once thought possible. Goodfire 声称 Silico...

用于构建 LLM 应用程序的 10 个 Python 库

10 Python Libraries for Building LLM Applications

了解 LLM 应用程序的顶级 Python 框架,涵盖微调、模型加载、服务、RAG 管道、多代理系统和评估。

使用本地 LLM 作为零样本分类器

Using a Local LLM as a Zero-Shot Classifier

使用本地托管的 LLM 将杂乱的自由文本数据分类为有意义的类别的实用管道,无需标记的训练数据。使用本地 LLM 作为零样本分类器的帖子首先出现在走向数据科学上。

使用 Amazon Bedrock AgentCore 打破上下文窗口障碍

Break the context window barrier with Amazon Bedrock AgentCore

在本文中,您将了解如何使用 Amazon Bedrock AgentCore Code Interpreter 和 Strands Agents SDK 实施递归语言模型 (RLM)。最后,您将了解如何在上下文大小没有上限的情况下处理不同长度的文档,使用 Bedrock AgentCore Code Interpreter 作为迭代文档分析的持久工作内存,以及在沙盒 Python 环境中编排次大语言模型 (sub-LLM) 调用来分析特定文档部分。

当法律术语正确但答案仍然错误时

When Legal Terminology is Correct But the Answer is Still Wrong

作者:Michael Krallmann,TransLegal 首席执行官。法律人工智能越来越有能力产生看起来正确的输出,不仅在语言上,而且在术语上也是如此。定义符合...

真正的“超级食物”

The One True 'Superfood'

Hatty Willmoth,科学焦点 营养学家很少向所有人推荐单一食物。如今,我们逐渐认识到营养需求是个人的,健康饮食是......

介绍 ARFBench:基于真实事件的时间序列问答基准

Introducing ARFBench: A time series question-answering benchmark based on real incidents

每年由于系统故障造成的损失超过一万亿美元。为了解决这些问题,工程师必须快速排除故障。事件响应中的一项重要任务涉及分析可观测性指标或反映软件系统运行状况的时间序列数据。例如,服务工程师可能会使用 Datadog 来回答诸如“延迟何时开始增加?”之类的问题。以及“延迟之外的哪些指标也表现异常?”定位异常行为的根本原因。这些时间序列问答 (TSQA) 任务对于工程师来说至关重要,并且为 SRE 模型和代理提供了具有挑战性且必要的任务。在这项工作中,我们探讨了 AI 模型执行 TSQA 任务的程度。为此,我们很高兴推出异常推理框架基准 (ARFBench),这是一个 TSQA 基准,源自 Datado

机器人团队的代理人工智能

Agentic AI for Robot Teams

本演讲重点介绍了约翰霍普金斯大学应用物理实验室最近为协作机器人团队推进代理人工智能所做的努力。它首先提出了跨异构系统实现自主性、协调性和适应性的核心挑战,然后引入了旨在支持多机器人环境中的代理行为的可扩展架构。演讲最后介绍了遇到的主要挑战以及从正在进行的研究和开发中学到的实际经验教训。主要学习内容介绍了基于 LLM 的 AI 代理描述了将基于 LLM 的 AI 代理应用于机器人团队的方法提供了在异构机器人团队的硬件中运行的方法的演示介绍了该领域的经验教训和未来的工作立即下载此免费白皮书!

物理人工智能的经济学:为什么数据质量胜过规模

The economics of Physical AI: Why data quality beats scale

为了达到物理 AI 社区所期望的鲁棒性水平,即在不熟悉的环境中对不熟悉的对象进行零样本部署的通才策略,数据集大小必须增长几个数量级。为了给出规模感,将逻辑扩展到 LLM 规模的数据量(大约 10^2)将需要大约 8000 万个机器人连续运行三年。 The field is therefore bottlenecked not only by compute or model architecture, but more fundamentally by the rate at which high-quality, real-world manipulation data can be gen

对法学硕士洗脑的最佳方式是什么?

What’s the Best Way to Brainwash an LLM?

I spent a weekend trying to convince a language model it was C-3PO. Here's what actually worked.The post What’s the Best Way to Brainwash an LLM?首先出现在《走向数据科学》上。

从 Vibe 编码到规范驱动开发

From Vibe Coding to Spec-Driven Development

与 LLM 代理一起从创意到工作健身应用程序的 4.5 小时旅程从 Vibe 编码到规范驱动开发的帖子首先出现在 Towards Data Science 上。