解释者：如何训练聊天机器人？ XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

解释者：如何训练聊天机器人？

2025年1月30日 19:30 33 Comments

中国初创公司 DeepSeek 本周引起轰动，发布了其新的开源聊天机器人 DeepSeek-R1，立即颠覆了人工智能领域。 DeepSeek 声称，它能够实现与 OpenAI 最新模型 OpenAI-o1-1217 类似或相当的性能，但开发成本仅为后者的一小部分。“……560 万美元，而未披露的数十亿美元……

来源:宇宙杂志

DeepSeek应用程序。学分：贾斯汀·沙利文/盖蒂图像

中国初创公司DeepSeek本周引起了海浪，发布了其新的开源聊天机器人DeepSeek-R1立即破坏了人工智能领域。

DeepSeek声称，它能够达到与OpenAI最新型号 - OpenAI-O1-1217的相似或等效性能，但要花费的一小部分开发成本。

“…560万美元与Openai在建立模型中消耗的数十亿美元相比，” La Trobe University AI和分析教授Daswin de Silva告诉Cosmos。

宇宙

南澳大利亚大学STEM副教授 Wolfgang Mayer告诉Cosmos，这部分是由于培训该模型所需的较小数据集。宇宙 “此外，DeepSeek还使用了几种工程技术和巧妙的方法来创建较小型号的较大型号，以使培训在功能较低的计算机芯片上更有效，” Mayer说。那么，他们是如何做到的？什么是DeepSeek-R1？ DeepSeek-R1是一种被称为大语言模型（LLM）的生成人工智能（AI）。 LLM学习语言以以对话，集思广益，总结和内容创建形式生成文本输出。大语言模型 “这是通过相关性或句子中经常发生的模式学习的语言，” De Silva说。 “给出一系列单词，您能预测下一个单词吗？这是大型语言模型的学习任务，并且大多数时候使它正确。” 您如何“训练” LLM？培训LLM是一个几个阶段过程。在第一个（预训练）中，该模型通过处理大量文本数据来学习语言模式。 Mayer说，LLM在预测句子中的下一个单词或回答问题时调整了数十亿个内部参数，以最大程度地减少错误。聊天机器人偏见初始实验

Wolfgang Mayer告诉Cosmos，这部分是由于培训该模型所需的较小数据集。

宇宙

“此外，DeepSeek还使用了几种工程技术和巧妙的方法来创建较小型号的较大型号，以使培训在功能较低的计算机芯片上更有效，” Mayer说。

那么，他们是如何做到的？

什么是DeepSeek-R1？

DeepSeek-R1是一种被称为大语言模型（LLM）的生成人工智能（AI）。 LLM学习语言以以对话，集思广益，总结和内容创建形式生成文本输出。

大语言模型

“这是通过相关性或句子中经常发生的模式学习的语言，” De Silva说。

“给出一系列单词，您能预测下一个单词吗？这是大型语言模型的学习任务，并且大多数时候使它正确。”

您如何“训练” LLM？

培训LLM是一个几个阶段过程。在第一个（预训练）中，该模型通过处理大量文本数据来学习语言模式。

Mayer说，LLM在预测句子中的下一个单词或回答问题时调整了数十亿个内部参数，以最大程度地减少错误。聊天机器人偏见初始实验

数据集培训一系列下一个单词图像 R1 应用程序人工智能 LLM 语言 DeepSeek 创建句子模型生成 Mayer 相关性开发成本学习文本数据聊天机器人