解释者:如何训练聊天机器人?

中国初创公司 DeepSeek 本周引起轰动,发布了其新的开源聊天机器人 DeepSeek-R1,立即颠覆了人工智能领域。 DeepSeek 声称,它能够实现与 OpenAI 最新模型 OpenAI-o1-1217 类似或相当的性能,但开发成本仅为后者的一小部分。“……560 万美元,而未披露的数十亿美元……

来源:宇宙杂志
DeepSeek应用程序。学分:贾斯汀·沙利文/盖蒂图像
DeepSeek应用程序。学分:贾斯汀·沙利文/盖蒂图像

中国初创公司DeepSeek本周引起了海浪,发布了其新的开源聊天机器人DeepSeek-R1立即破坏了人工智能领域。

DeepSeek声称,它能够达到与OpenAI最新型号 - OpenAI-O1-1217的相似或等效性能,但要花费的一小部分开发成本。

“…560万美元与Openai在建立模型中消耗的数十亿美元相比,” La Trobe University AI和分析教授Daswin de Silva告诉Cosmos。

宇宙

南澳大利亚大学STEM副教授 Wolfgang Mayer告诉Cosmos,这部分是由于培训该模型所需的较小数据集。 宇宙 “此外,DeepSeek还使用了几种工程技术和巧妙的方法来创建较小型号的较大型号,以使培训在功能较低的计算机芯片上更有效,” Mayer说。 那么,他们是如何做到的? 什么是DeepSeek-R1? DeepSeek-R1是一种被称为大语言模型(LLM)的生成人工智能(AI)。 LLM学习语言以以对话,集思广益,总结和内容创建形式生成文本输出。 大语言模型 “这是通过相关性或句子中经常发生的模式学习的语言,” De Silva说。 “给出一系列单词,您能预测下一个单词吗?这是大型语言模型的学习任务,并且大多数时候使它正确。” 您如何“训练” LLM? 培训LLM是一个几个阶段过程。在第一个(预训练)中,该模型通过处理大量文本数据来学习语言模式。 Mayer说,LLM在预测句子中的下一个单词或回答问题时调整了数十亿个内部参数,以最大程度地减少错误。 聊天机器人 偏见 初始实验

Wolfgang Mayer告诉Cosmos,这部分是由于培训该模型所需的较小数据集。

宇宙

“此外,DeepSeek还使用了几种工程技术和巧妙的方法来创建较小型号的较大型号,以使培训在功能较低的计算机芯片上更有效,” Mayer说。

那么,他们是如何做到的?

什么是DeepSeek-R1?

DeepSeek-R1是一种被称为大语言模型(LLM)的生成人工智能(AI)。 LLM学习语言以以对话,集思广益,总结和内容创建形式生成文本输出。

大语言模型

“这是通过相关性或句子中经常发生的模式学习的语言,” De Silva说。

“给出一系列单词,您能预测下一个单词吗?这是大型语言模型的学习任务,并且大多数时候使它正确。”

您如何“训练” LLM?

培训LLM是一个几个阶段过程。在第一个(预训练)中,该模型通过处理大量文本数据来学习语言模式。

Mayer说,LLM在预测句子中的下一个单词或回答问题时调整了数十亿个内部参数,以最大程度地减少错误。 聊天机器人 偏见初始实验