WebDev Arena的AI编码竞赛不同的LLM在Web开发挑战中遇到

WebDev Arena是一个免费的开放平台,其中两个LLM在Web开发中相互竞争。用户编写一个提示,然后两个代码块Artifactter出现现场。评估Web开发中大型语言模型(LLM)能力的平台。通过与E2B的合作,他们创造了一个安全有效的环境,不同的LLM可以互相竞争[…] WebDev Arena的AI编码竞赛不同的LLMS在Web开发方面遇到的不同,首先出现在AI News上。

来源:AI新闻
WebDev Arena是一个免费的开放平台,其中两个LLM在Web开发中相互竞争。用户编写一个提示,然后显示两个代码块,以评估Web开发中的大型语言模型(LLM)。通过与E2B的合作,他们创造了一个安全有效的环境,不同的LLM可以在构建Web应用程序中相互竞争。该平台已成功处理了230,000多个沙盒,并启用了50,000多个模型比较,在此方面,安全性,性能和隔热性是中心的。每个LLM都可以生成广泛的代码部分,以进行有意义的比较,评估者需要同时查看两个LLMS。当同时比较两个或多个模型的输出时,小延误也可以迅速累积并扭曲投票结果。WebdevArena是一个免费的,开放的平台,两个LLLM在Web开发中使用E2B-Sandbox,使用E2B-Sandbox,以大约150ms的速度启动,并确保在孤立的环境中隔离编码中驾驶安全的代码。 Claude 3.5 SONNET目前领先于deepSeek-r1。

WebDev Arena是一个免费的开放平台,其中两个LLM在Web开发中相互竞争。用户编写一个提示,然后两个代码块Artifactter出现现场。

以下是提示的示例:GAMIFIED任务管理器

游戏任务管理器

运行代码评估意味着同时管理大量代码。每个LLM都可以生成广泛的代码部分。

在此处测试WebDev竞技场