Genai Arena:生成模型的开放评估平台
机构名称:
¥ 2.0

生成的AI已取得了显着的进步,以彻底改变图像和视频生成等领域。这些进步是由创新算法,体系结构和数据驱动的。然而,生成模型的快速扩散突出了一个关键的差距:缺乏值得信赖的评估指标。当前的自动评估,例如FID,剪辑,FVD等,通常无法捕获与生成输出相关的细微质量和用户满意度。本文提出了一个开放的平台g en-a rena,以评估不同的图像和视频生成模型,用户可以在其中积极参与评估这些模型。通过利用集体用户的反馈和投票,G en-A-A Rena旨在提供更民主和准确的模型绩效衡量。它分别涵盖了三个竞技场,分别用于文本形象生成,文本到视频生成和图像编辑。目前,我们总共涵盖了35个开源生成模型。g en-a-a rena已经运作了七个月,积累了社区的9000多票。我们描述了我们的平台,分析数据并解释用于对模型进行排名的统计方法。为了进一步促进基于建筑模型的评估指标的研究,我们发布了三个任务(即Genai-Bench)的偏好数据的清洁版本。我们促使现有的多模式模型,例如Gemini,GPT-4O,模仿人类投票。我们通过将投票的模型投票与人类投票来了解其惩罚能力来计算准确性。在这三个生成任务中有19%。我们的结果表明,现有的多模式模型仍在评估生成的视觉内容方面落后,即使是最佳型号GPT-4O也只能达到49的平均精度。开源MLLM的表现更糟,因为在复杂的视力方案中缺乏指导跟踪和推理能力。

Genai Arena:生成模型的开放评估平台

Genai Arena:生成模型的开放评估平台PDF文件第1页

Genai Arena:生成模型的开放评估平台PDF文件第2页

Genai Arena:生成模型的开放评估平台PDF文件第3页

Genai Arena:生成模型的开放评估平台PDF文件第4页

Genai Arena:生成模型的开放评估平台PDF文件第5页

相关文件推荐

将生成AI纳入评估
2024 年
¥3.0
EV充电平台评估3.0
2024 年
¥4.0