详细内容或原文请订阅后点击阅览
sberbank:生成AI div>的基础
Andrei Evtikhov是Sberbank群集团技术开发的董事总经理,他创建了用于培训生成AI的数据管理平台。
来源:OSP网站大数据新闻Andrey Evtikhov:“我们成功地将解决方案工具和现成的组件结合在一个解决方案中,为训练基本 AI 模型提供完整的数据准备周期 - 从收集初始数据到生成直接用于模型训练过程的现成数据集”
SberDevices 已经开发、实施并正在开发用于训练生成人工智能 (AI) 的数据管理平台 - 基本模型系列 GigaChat、Kandinsky、GigaCode 等。SberDevices SaluteEye 产品负责人、数据奖提名者 Andrey Evtikhov 谈论了该项目的进展及其对 Sber 的作用。
数据奖- 创建的平台的功能和任务是什么?
该平台的关键任务是生成最新且完整的数据集,用于训练全系列基本 Sber AI 模型(GigaChat、SymFormer、Kandinsky、GigaCode 等)。该平台为分析团队提供全方位的数据管理功能。这包括来自开源的数据收集、来自合作伙伴的大型数据集的批量加载、从原始数据集中提取元数据、用于训练的数据集的快速全文搜索、数据唯一性的自动评估、数据集的过滤、使用大型图形加速器集群处理视频、音频和图像数据。
- 您从哪里获取数据以及类型?
该平台从所有模式收集数据:文本、视频、音频、图像、代码。使用的来源是公司和组织在线资源、网络档案、开放代码存储库、人工智能培训开放数据集的公开数据。我们与为各个知识领域提供高质量数据集的合作伙伴合作。
- 该平台基于哪些技术构建?
- 什么特别成功?
- 已经取得了哪些成果?
- 该项目对于公司业务和整个数据行业的作用是什么?
