课程

课程介绍

      本课程是为开发者和技术决策者量身打造的沉浸式实战课程,将带领学员从零开始,系统讲解大语言模型在企业环境下的落地全流程。深入掌握Ollama平台实现本地轻量级模型部署(如DeepSeek、Qwen),并对比实践Hugging Face与魔塔社区(ModelScope)的模型下载、推理与免费算力资源利用,为您厘清本地部署与云端服务的成本与选型策略。聚焦生产级部署,学习在租用算力(如AutoDL)上使用vLLM实现高性能模型推理服务部署,并通过OpenWebUI构建聊天应用,同时夯实理论基础,透彻理解Transformer架构、注意力机制、训练流程与RLHF。进阶实战,运用LLaMA-Factory框架完成LoRA微调全生命周期,从数据集构建(含知识库转化)、超参数调优、模型训练测试,到模型量化压缩、合并导出,最终实现微调模型在Ollama/vLLM环境的高效部署。

培训对象

从事相关工作及对本课程内容感兴趣的人员。

课程收益

通过学习将具备企业级大模型应用开发、优化与私有化落地的核心能力。

知识概要

-- Ollama、Huggingface和魔塔社区平台使用;
-- vLLM部署和大模型理论基础;
-- 使用LLaMA-Factory实现模型微调和量化。

课程大纲

模块

学习内容

第一天

Ollama、Huggingface和魔塔社区平台使用

大语言模型简介

大模型发展历程

国内和国外大模型厂商和产品

大模型分类和使用

业务本地化部署大模型应用

部署本地化大模型的意义

本地化部署还是租用算力服务器

如何进行成本测算

Ollama简介

Ollama安装和常用参数配置

Ollama大模型介绍

Ollama部署deepseek和Qwen

管理和部署本地大模型

基于Ollama的Web构建

ChatBox安装和使用

huggingface简介

注册和安装、模型探索

下载模型、模型推理和使用

Modelscope简介

学习使用Modelscope提供的免费算力服务器

搭建python开发环境

模型下载和推理使用

Ollama、Modelscope和Huggingface对比和选择

理解模型规模、GPU选型和服务器选型

第二天

vLLM部署和大模型理论基础

租用AUTODL算力服务器

大模型模型选择和服务器/显卡选择

搭建python环境

实现大模型推理

Transformers安装和使用:模型推理、Pipeline和文本生成

vLLM 简介和和安装

使用vLLM实现模型推理

使用vllm实现部署模型(deepseek-r1和Qwen3和嵌入模型等)

OpenWebUI搭建大模型聊天应用

下载和安装

大模型的常用配置

实现聊天应用

理解大模型原理基础

大模型是如何训练的?

理解注意力机制

理解Transformer架构

生成语言基础模型GPT

理解强化学习RLHF流程与思想

什么是模型微调

微调的概念和流程

理解LoRA工作原理

LoRA微调流程

第三天

使用LLaMA-Factory实现模型微调和量化

LLaMA-Factory框架简介

安装LLaMA-Factory框架并搭建微调环境

基座模型选择和下载:根据微调任务选择不同的基座模型

微调数据集准备

理解identity.json认知数据集

微调数据集的结构解析

使用deepseek和知识库生成微调数据集

开始使用LoRA训练模型

使用训练模型进行聊天测试

理解模型训练之超参数调优

合并和导出模型

使用训练后模型进行测试

理解量化理论机制

什么是模型量化

模型量化机制探讨

实现将Lora模型进行量化

将导出模型转成Ollama,实现部署

使用vLLM部署微调模型

搭建和使用LLaMA-Factory WebUI

使用WEBUI实现模型Lora微调、合并和导出

使用代码方式使用Lora模型微调

使用代码方式实现Lora模型合并和导出

认证过程

无认证考试

开班信息

暂无开班信息