课程介绍
本课程是为开发者和技术决策者量身打造的沉浸式实战课程,将带领学员从零开始,系统讲解大语言模型在企业环境下的落地全流程。深入掌握Ollama平台实现本地轻量级模型部署(如DeepSeek、Qwen),并对比实践Hugging Face与魔塔社区(ModelScope)的模型下载、推理与免费算力资源利用,为您厘清本地部署与云端服务的成本与选型策略。聚焦生产级部署,学习在租用算力(如AutoDL)上使用vLLM实现高性能模型推理服务部署,并通过OpenWebUI构建聊天应用,同时夯实理论基础,透彻理解Transformer架构、注意力机制、训练流程与RLHF。进阶实战,运用LLaMA-Factory框架完成LoRA微调全生命周期,从数据集构建(含知识库转化)、超参数调优、模型训练测试,到模型量化压缩、合并导出,最终实现微调模型在Ollama/vLLM环境的高效部署。
培训对象
从事相关工作及对本课程内容感兴趣的人员。
课程收益
通过学习将具备企业级大模型应用开发、优化与私有化落地的核心能力。
知识概要
-- Ollama、Huggingface和魔塔社区平台使用;
-- vLLM部署和大模型理论基础;
-- 使用LLaMA-Factory实现模型微调和量化。
课程大纲
Ollama、Huggingface和魔塔社区平台使用
大语言模型简介
大模型发展历程
国内和国外大模型厂商和产品
大模型分类和使用
业务本地化部署大模型应用
部署本地化大模型的意义
本地化部署还是租用算力服务器
如何进行成本测算
Ollama简介
Ollama安装和常用参数配置
Ollama大模型介绍
Ollama部署deepseek和Qwen
管理和部署本地大模型
基于Ollama的Web构建
ChatBox安装和使用
huggingface简介
注册和安装、模型探索
下载模型、模型推理和使用
Modelscope简介
学习使用Modelscope提供的免费算力服务器
搭建python开发环境
模型下载和推理使用
Ollama、Modelscope和Huggingface对比和选择
理解模型规模、GPU选型和服务器选型
vLLM部署和大模型理论基础
租用AUTODL算力服务器
大模型模型选择和服务器/显卡选择
搭建python环境
实现大模型推理
Transformers安装和使用:模型推理、Pipeline和文本生成
vLLM 简介和和安装
使用vLLM实现模型推理
使用vllm实现部署模型(deepseek-r1和Qwen3和嵌入模型等)
OpenWebUI搭建大模型聊天应用
下载和安装
大模型的常用配置
实现聊天应用
理解大模型原理基础
大模型是如何训练的?
理解注意力机制
理解Transformer架构
生成语言基础模型GPT
理解强化学习RLHF流程与思想
什么是模型微调
微调的概念和流程
理解LoRA工作原理
LoRA微调流程
使用LLaMA-Factory实现模型微调和量化
LLaMA-Factory框架简介
安装LLaMA-Factory框架并搭建微调环境
基座模型选择和下载:根据微调任务选择不同的基座模型
微调数据集准备
理解identity.json认知数据集
微调数据集的结构解析
使用deepseek和知识库生成微调数据集
开始使用LoRA训练模型
使用训练模型进行聊天测试
理解模型训练之超参数调优
合并和导出模型
使用训练后模型进行测试
理解量化理论机制
什么是模型量化
模型量化机制探讨
实现将Lora模型进行量化
将导出模型转成Ollama,实现部署
使用vLLM部署微调模型
搭建和使用LLaMA-Factory WebUI
使用WEBUI实现模型Lora微调、合并和导出
使用代码方式使用Lora模型微调
使用代码方式实现Lora模型合并和导出
认证过程
无认证考试
开班信息
暂无开班信息