有偿关键词检索结果

新基准显示人工智能代理在自动化实际工作时表现不佳

New Benchmark Shows AI Agents Perform Poorly When Automating Real Jobs

人工智能安全和规模人工智能中心的一篇新论文介绍了远程劳动力指数(RLI),这是第一个旨在衡量人工智能代理执行有偿远程工作能力的基准。