课程

课程介绍

     随着人工智能技术的快速发展,智能助手(如DeepSeek-V3)在多模态理解、个性化交互、知识推理等领域的应用日益广泛。DeepSeek-V3作为深度求索公司推出的第三代智能助手,凭借其先进的核心技术(如大规模预训练、多模态理解、上下文感知等),在智能客服、内容创作、教育、医疗等领域展现了强大的潜力。
     然而,要将DeepSeek-V3的能力充分发挥并应用于实际业务场景,不仅需要深入理解其核心技术原理,还需要掌握本地部署和微调的方法,以满足特定领域或企业的定制化需求。为此,本课程旨在帮助学员系统学习DeepSeek-V3的核心技术原理,并通过实操掌握本地部署和微调的技能,从而提升在实际项目中的应用能力。

培训对象

对课程内容感兴趣的全体人员。

课程收益

深刻理解DeepSeek-V3的核心技术原理;
掌握DeepSeek-V3的本地部署方法;
学会DeepSeek-V3的微调与定制化;
提升实际项目中的应用能力。

知识概要

-- DeepSeek-V3/R1核心技术架构和训练过程;
-- DeepSeek本地部署和微调案例实操。

课程大纲

模块

学习内容

第一天

第一部分 DeepSeek-V3的架构创新:训练GPU和成本均低,但效果卓越

1、V3风靡海内外的关键因素:训练成本极低、引领前沿创新

1) V3训练成本:所用的GPU训练资源仅为Llama 3.1 405B的差不多1/14

2) 在国内也能引领世界级前沿

2、模型架构:MLA、负载均衡的MoE、Multi-Token预测

1) 多头潜在注意力

2) 无辅助损失的负载平衡 DeepSeekMoE

3) 多token预测:Multi-Token Prediction显著加快模型的解码速度

第二部分 DeepSeek-V3基础设施层面的创新:FP8 训练等

1、训练框架(含GPU的内部结构示意图)

1) 双管道DualPipe与计算-通信重叠

2) 跨节点全对全通信的高效实现:通过PXT连接CUDA和底层GPU硬件

3) 极致内存节省与最小开销

2、FP8训练:虽算的快 但精度不够,故需提高精度

1) 混合精度框架

2) 通过量化和乘法提高精度

3) 低精度存储和通信:降低内存和通信开销

3、推理与部署

1) 预填充

2) 解码

4、硬件设计建议

第二天

第三部分 DeepSeek-V3的预训练与后训练

1、预训练

1) 数据构建:提高数学、编程、多语言样本,最终14.8T语料

2) 超参数

3) 长上下文扩展

4) 评估与讨论

2、训练后处理:透露了大半后来引爆全球的R1正式版训练流程

1) 监督微调

2) 强化学习:涉及奖励模型和GRPO

3) 评估与讨论:关于DeepSeek-R1提炼与多token预测

第四部分 DeepSeek R1:如何通过纯RL训练大模型的推理能力

1、提出背景与相关工作

1) R1-Zero的提出背景:无需人类数据,从零实现自我迭代

2) R1的提出背景:解决Zero可读性差等问题

2、DeepSeek-R1-Zero:规则驱动的大规模RL训练,无冷启动、无SFT

1) RL算法GRPO:不需要critic

2) 规则奖励建模(准确率奖励 + 格式奖励):不用训练专门的奖励模型RM

3) 训练模板:通过prompt让Zero启动深度思考的推理模式

4) Zero的性能、自我进化过程和顿悟时刻

3、DeepSeek-R1:先冷启动数据SFT再RL,之后再SFT再RL

1) 阶段一 冷启动(主要关注推理):通过R1-Zero生成数千条长CoT数据

2) 阶段二 面向推理的GRPO RL:类似Zero的规则奖励,但增加语言一致性奖励

3) 阶段三 V3上的两轮SFT(结合rejection sampling):涉及80w通用层面的推理和非推理数据

4) 阶段四 所有场景的RL:提高有用性和无害性,且混合规则奖励和偏好奖励

4、蒸馏:赋予小模型推理能力

5、一些经验总结:成功和失败的经验分析总结

第三天

第五部分 本地部署准备工作:各个版本、推理框架、硬件资源

DeepSeek-R1的多个版本:加上2个原装671B的,总计8个参数版本

主流的大模型推理框架:分为PC端和Android端

不同参数的模型所要求的硬件

蒸馏版和满血版的两类部署

第六部分 通过Ollama、vLLM本地部署DeepSeek-R1蒸馏版:支持联网搜索及知识库问答

1、基于Ollama和各类插件构建智能对话:终端、open-webui(支持联网)、Chatbox

1) Ollama下的终端命令行交互

2) Ollama下的open-webui交互:基于docker安装,且支持联网搜索

3) 基于Ollama + ChatBox部署deepseek-r1:7b

2、基于Ollama和Page Assist/AnythingLLM构建本地知识库问答系统

1) 基于Ollama + Page Assist搭建本地知识库问答系统:且支持联网搜索

2) 基于Ollama + AnythingLLM搭建本地知识库问答

3、通过vLLM推理deepseek-r1

1) 基于vLLM的命令行交互——R1-Distill-Llama-8B

2) 基于vllm + open WebUi 部署r1 7b

4、本地手机端部署DeepSeek-R1蒸馏Llama/Qwen后的版本

第七部分 无蒸馏前提下本地部署R1 or R1-Zero 671B满血版

1、折中路径:无蒸馏但量化部署Deepseek-R1 671B满血版

1) 本地CPU上运行 Deepseek-R1 的完整的硬件 + 软件设置

2) GPU上跑无蒸馏但量化的Deepseek-R1 671B满血版

2、企业级部署:无蒸馏不量化部署Deepseek-R1 671B满血版

认证过程

无认证考试

开班信息

暂无开班信息

相关课程