获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
How to build a better AI benchmark
作为硅谷最喜欢的基准之一并不容易。 SWE-Bench(发音为“ Swee板凳”)于2024年11月推出,以评估AI模型的编码技能,使用了来自12个不同基于Python的项目的公共GitHub存储库中的2,000多个现实世界中的编程问题。从那以后的几个月中,它很快成为最重要的……