EvalKit关键词检索结果

使用 Agent-EvalKit 系统地评估 AI 代理

Evaluate AI agents systematically with Agent-EvalKit

Agent-EvalKit 是一个开源工具包 (Apache 2.0),它通过与 AI 编码助手(包括 Claude Code、Kiro CLI 和 Kilo Code)集成来提供此评估基础架构。本文以使用 Strands Agents SDK 和 Amazon Bedrock 构建的旅行研究代理作为运行示例,介绍了 Agent-EvalKit 在六个评估阶段的工作原理。