llm领域信息情报检索---XiaoMi-AI

2026年5月21日 16:08

使用 Amazon Bedrock AgentCore 打破上下文窗口障碍

Break the context window barrier with Amazon Bedrock AgentCore

在本文中，您将了解如何使用 Amazon Bedrock AgentCore Code Interpreter 和 Strands Agents SDK 实施递归语言模型 (RLM)。最后，您将了解如何在上下文大小没有上限的情况下处理不同长度的文档，使用 Bedrock AgentCore Code Interpreter 作为迭代文档分析的持久工作内存，以及在沙盒 Python 环境中编排次大语言模型 (sub-LLM) 调用来分析特定文档部分。

走向数据科学

2026年5月21日 16:30

LLM 主题不是观察

LLM Themes Are Not Observations

一位从业者对因果分析中生成变量的警告LLM 后的主题不是观察结果首先出现在《走向数据科学》上。

亚马逊云科技 _机器学习

2026年5月20日 18:01

多模态评估器：MLLM 作为 Strands Evals 中图像到文本任务的法官

Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals

如果您正在构建视觉购物、图像或文档理解或图表分析，您需要一种方法来验证模型的响应是否确实基于源图像。纯文本评估器无法告诉您标题是否忠实地描述了图像、提取的发票总额是否与文档匹配、或者屏幕摘要是否[...]

Artificial Lawyer

2026年5月20日 08:03

当法律术语正确但答案仍然错误时

When Legal Terminology is Correct But the Answer is Still Wrong

作者：Michael Krallmann，TransLegal 首席执行官。法律人工智能越来越有能力产生看起来正确的输出，不仅在语言上，而且在术语上也是如此。定义符合...

RealClearScience

2026年5月20日 06:54

真正的“超级食物”

The One True 'Superfood'

Hatty Willmoth，科学焦点营养学家很少向所有人推荐单一食物。如今，我们逐渐认识到营养需求是个人的，健康饮食是......

ΑΙhub

2026年5月18日 07:29

介绍 ARFBench：基于真实事件的时间序列问答基准

Introducing ARFBench: A time series question-answering benchmark based on real incidents

每年由于系统故障造成的损失超过一万亿美元。为了解决这些问题，工程师必须快速排除故障。事件响应中的一项重要任务涉及分析可观测性指标或反映软件系统运行状况的时间序列数据。例如，服务工程师可能会使用 Datadog 来回答诸如“延迟何时开始增加？”之类的问题。以及“延迟之外的哪些指标也表现异常？”定位异常行为的根本原因。这些时间序列问答 (TSQA) 任务对于工程师来说至关重要，并且为 SRE 模型和代理提供了具有挑战性且必要的任务。在这项工作中，我们探讨了 AI 模型执行 TSQA 任务的程度。为此，我们很高兴推出异常推理框架基准 (ARFBench)，这是一个 TSQA 基准，源自 Datado

IEEE Spectrum _机器人

2026年5月18日 10:00

机器人团队的代理人工智能

Agentic AI for Robot Teams

本演讲重点介绍了约翰霍普金斯大学应用物理实验室最近为协作机器人团队推进代理人工智能所做的努力。它首先提出了跨异构系统实现自主性、协调性和适应性的核心挑战，然后引入了旨在支持多机器人环境中的代理行为的可扩展架构。演讲最后介绍了遇到的主要挑战以及从正在进行的研究和开发中学到的实际经验教训。主要学习内容介绍了基于 LLM 的 AI 代理描述了将基于 LLM 的 AI 代理应用于机器人团队的方法提供了在异构机器人团队的硬件中运行的方法的演示介绍了该领域的经验教训和未来的工作立即下载此免费白皮书！

Robotiq

2026年5月14日 13:00

物理人工智能的经济学：为什么数据质量胜过规模

The economics of Physical AI: Why data quality beats scale

为了达到物理 AI 社区所期望的鲁棒性水平，即在不熟悉的环境中对不熟悉的对象进行零样本部署的通才策略，数据集大小必须增长几个数量级。为了给出规模感，将逻辑扩展到 LLM 规模的数据量（大约 10^2）将需要大约 8000 万个机器人连续运行三年。 The field is therefore bottlenecked not only by compute or model architecture, but more fundamentally by the rate at which high-quality, real-world manipulation data can be gen

走向数据科学

2026年5月13日 13:30

对法学硕士洗脑的最佳方式是什么？

What’s the Best Way to Brainwash an LLM?

I spent a weekend trying to convince a language model it was C-3PO. Here's what actually worked.The post What’s the Best Way to Brainwash an LLM?首先出现在《走向数据科学》上。

走向数据科学

2026年5月13日 18:22

我两次构建了相同的 B2B 文档提取器：规则与 LLM

I Built the Same B2B Document Extractor Twice: Rules vs. LLM

使用 pytesseract 的基于规则的 PDF 提取与使用 Ollama 和 LLaMA 3 的基于 LLM 的方法之间的实际比较，基于现实的 B2B 订单场景。我构建相同的 B2B 文档提取器两次：规则与 LLM 的帖子首先出现在 Towards Data Science 上。

Apple机器学习研究

2026年5月11日 00:00

BalCapRL：基于 RL 的 MLLM 图像描述的平衡框架

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

图像字幕是计算机视觉中最基本的任务之一。由于其开放性，它在多模态大语言模型（MLLM）时代受到了极大的关注。为了追求更加详细和准确的字幕，最近的工作越来越多地转向强化学习（RL）。然而，现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念，从而导致字幕核心维度之间的权衡。例如，以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……

OSP网站大数据新闻

2026年5月12日 12:32

Oracle 提供语义搜索，无需 LLM

Oracle предлагает семантический поиск без LLM

系统理解自然语言的问题，立即提供必要的文档。

走向数据科学

2026年5月12日 16:30

从 Vibe 编码到规范驱动开发

From Vibe Coding to Spec-Driven Development

与 LLM 代理一起从创意到工作健身应用程序的 4.5 小时旅程从 Vibe 编码到规范驱动开发的帖子首先出现在 Towards Data Science 上。

Science 2.0

2026年5月12日 18:51

声学分析表明所有人类语言都存在偏见

Ousiometrics Analysis Says All Human Language Is Biased

一种新工具利用了 20,000 多个单词的数十亿次使用和多样化的现实世界文本，声称发现人类语言存在系统性偏见，但并不反对事物。相反，它偏向于安全性，这影响了从心理学主张到大型语言模型（LLM，俗称人工智能和 AI）的方方面面。阅读更多

RealClearScience

2026年5月12日 07:10

医生忽视了 GLP-1 药物的一个隐藏问题

Doctors Are Missing a Hidden Problem With GLP-1 Drugs

Hatty Willmoth，科学焦点减肥不再是一场令人筋疲力尽的艰苦战斗。胰高血糖素样肽-1 (GLP-1) 药物 - 以 Ozempic、Wegovy 和 Mounjaro 等品牌出售 -...

KDnuggets

2026年5月11日 16:00

法学硕士的护栏：衡量 AI 的“幻觉”和冗长

Guardrails for LLMs: Measuring AI ‘Hallucination’ and Verbosity

本文讨论如何实现用于测量和控制过于冗长的 LLM 响应的基础设施。

走向数据科学

2026年5月10日 13:00

LLM 摘要器跳过识别步骤

LLM Summarizers Skip the Identification Step

一位从业者的论点是，当你跳过询问数据可以支持什么的部分时，会议总结者会以同样的方式回归会失败。LLM 总结者跳过识别步骤的帖子首先出现在走向数据科学上。

BAIR

2026年5月8日 02:00

自适应并行推理：高效推理扩展的下一个范式

Adaptive Parallel Reasoning: The Next Paradigm in Efficient Inference Scaling

自适应并行推理概述。如果推理模型可以自行决定何时分解和并行化独立子任务、生成多少个并发线程以及如何根据当前问题协调它们，会怎样？我们对并行推理领域的最新进展进行了详细分析，特别是自适应并行推理。披露：这篇文章部分是景观调查，部分是自适应并行推理的视角。作者之一 (Tony Lian) 共同领导了 ThreadWeaver (Lian et al., 2025)，这是下面讨论的方法之一。作者旨在以自己的方式呈现每种方法。动机除了数据和参数缩放之外，LLM 推理能力的最新进展很大程度上是由推理时间缩放驱动的（OpenAI 等人，2024 年；DeepSeek-AI 等人，2025 年）。显式输

llm关键词检索结果