Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents
本文被 ACL 2026 第五届自然语言生成、评估和指标研讨会接受。工具调用代理在工具选择、参数准确性和范围识别方面进行评估,但 LLM 轨迹评估本质上仍然是事后评估。与活动执行循环断开连接,此类评估可以识别通常通过即时调整或重新训练来解决的错误,并且从根本上无法实时纠正代理。为了弥补这一差距,我们在推理时将评估转移到执行循环中:专门的审阅代理评估......
GAO 发现的内容当活动影响美国的湿地、溪流或其他水域时,美国陆军工程兵团可以要求采取补偿性缓解活动,例如清除湿地中的入侵物种。 GAO 审查了军团对补偿性缓解活动的监督,发现与 2005 年 GAO 报告中选择的军团地区相比,其选择的三个地区总体上提高了监督活动的频率。具体来说,这三个地区的缓解档案一般都至少包含一份监测报告,而且与2005年报告中的地区相比,这三个地区的合规检查程度有所提高。在 2026 年和 2005 年,GAO 发现,如果未执行所需的补偿性缓解措施,军团可以采取各种执法行动;(2) 主要依靠与负责缓解措施的人员进行谈判,作为执行过程的第一步。军团在补偿性缓解监督中的作用
GAO 的发现能源部 (DOE) 环境管理办公室 (EM) 报告称,截至 2025 年 6 月,其约 4,300 个运营设施的维修需求超过 15 亿美元。EM 的预算要求包括 2026 财年超过 9.5 亿美元的维修支出,自 2020 财年以来增加了 80%。EM 直接资助的维护和维修支出,财年 (FY) 2020–2026EM 站点和总部使用设施状况评估的数据来做出维护决策。 EM 使用记分卡验证这些数据的准确性。根据 GAO 的分析,一些记分卡包含不准确或不受支持的数据,并且没有完整的纠正行动计划。此外,GAO 对网站对调查问卷的回复进行审查后发现,一些网站使用不同的方法来生成根据能源部命
IRS Financial Reporting: Improvements Needed in Information System and Other Controls
GAO 的发现在 GAO 对国税局 (IRS) 2025 财年财务报表及其截至 2025 年 9 月 30 日的财务报告内部控制的审计期间,GAO 发现了财务报告内部控制的五个新缺陷。其中四个新缺陷本质上是敏感的,与信息系统相关,其中包括三个访问控制缺陷和一个安全管理控制缺陷。其余的新缺陷本质上并不敏感,与国税局的非生产成本有关,这些成本是财务报告交易周期的一部分。本报告提供了有关新的财务报告交易周期控制缺陷和相关建议的详细信息。单独发布的仅限官方使用的报告提供了有关新信息系统控制缺陷的详细信息以及解决这些缺陷的四项建议。此外,GAO 确定 IRS 已完成了对 GAO 之前截至 2024 年
Why Agentic AI Requires More Than Better Models
代理人工智能 (AI) 将从根本上重塑企业工作和商业的结构。这些代理不是简单地响应指令,而是通过规划任务、创建和使用工具、纠正自己的错误以及自主追求多步骤目标来积极参与工作流程。结果是速度更快、适应性更强...阅读更多»为什么代理 AI 需要的不仅仅是更好的模型一文首先出现在《大数据分析新闻》上。