当前位置：网站首页 > 技术文章 > 正文

在Windows 11上部署DeepSeek 3B本地模型:从零开始，轻松搞定!

网站名称：在Windows 11上部署DeepSeek 3B本地模型:从零开始，轻松搞定!
网站分类：技术文章
收录时间：2025-07-08 14:40
网站地址：

进入网站

“在Windows 11上部署DeepSeek 3B本地模型:从零开始，轻松搞定!” 网站介绍

你是否想在Windows 11上部署一个强大的3B本地模型，充分利用你的GPU？本文将手把手教你如何完成这一任务，即使你是初学者也能轻松上手！

以我本人电脑的配置，CPU i7-10700K，内存32G，显卡3060 12G为例，在本地部署一个deepseel的3b模型。

硬件要求

CPU：Intel i7-10700K（或更高）
内存：32GB RAM
显卡：NVIDIA RTX 3060 12GB
操作系统：Windows 11

步骤1：安装Python环境

下载并安装Python 3.8或更高版本（推荐3.9或3.10）Windows11也可以直接在Microsoft Store中安装。
安装时勾选“Add Python to PATH”。

步骤2：创建虚拟环境

打开命令提示符（CMD）或PowerShell。
创建虚拟环境：

CMD：

python -m venv myenv

激活虚拟环境：

CMD：

myenv\Scripts\activate

步骤3：安装CUDA和cuDNN

为了充分利用RTX 3060 GPU，安装CUDA和cuDNN：

安装CUDA Toolkit：
下载与RTX 3060兼容的CUDA版本（如CUDA 11.7或12.x）。

CMD：运行nvidia-smi.exe检查你的显卡最高支持的CUDA版本

确保已安装最新的NVIDIA显卡驱动：

访问 NVIDIA驱动下载页面www.nvidia.com/en-us/drivers/。
选择你的显卡型号（GeForce RTX 3060）和操作系统（Windows 11）。
下载并安装最新的驱动程序。

下载CUDA Toolkit

访问 CUDA Toolkit下载页面developer.nvidia.com/cuda-toolkit。
选择与你的操作系统和需求匹配的CUDA版本。
下载安装程序（推荐选择exe [local]格式）。

验证CUDA安装

打开命令提示符（CMD）或PowerShell。
运行以下命令检查CUDA版本：

nvcc --version

如果显示CUDA版本号（如11.7或12.0），说明安装成功。

步骤4：安装PyTorch（支持CUDA）

在虚拟环境中安装支持CUDA的PyTorch：

CMD：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

确保安装的PyTorch版本与CUDA版本匹配。

步骤5：下载和加载3B模型

使用transformers库下载和加载3B模型：

安装transformers库：

CMD：

pip install transformers

下载模型：

Python：

from transformers import AutoModelForCausalLM, AutoTokenizer 
model_name = "模型名称" # 例如 "EleutherAI/gpt-neo-2.7B" 
tokenizer = AutoTokenizer.from_pretrained(model_name) 
model = AutoModelForCausalLM.from_pretrained(model_name)

将模型移动到GPU：

Python：

model = model.to("cuda")

步骤6：保存模型到本地

将模型保存到本地，避免每次重新下载：

Python：

model.save_pretrained("本地路径")
tokenizer.save_pretrained("本地路径")

步骤7：加载本地模型

从本地加载模型：

Python：

model = AutoModelForCausalLM.from_pretrained("本地路径")
tokenizer = AutoTokenizer.from_pretrained("本地路径")
model = model.to("cuda")

步骤8：运行推理

使用GPU进行推理：

Python：

input_text = "输入文本"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

步骤9：优化性能

使用混合精度（FP16）

启用混合精度以减少显存占用并加速推理：

Python：

from torch.cuda.amp import autocast

with autocast():
    outputs = model.generate(**inputs, max_length=50)

使用bitsandbytes量化（可选）

如果显存不足，可以使用bitsandbytes库进行量化：

安装bitsandbytes：

CMD:

pip install bitsandbytes

加载量化模型：

Python:

from transformers import BitsAndBytesConfig 
quantization_config = BitsAndBytesConfig( 
				load_in_4bit=True, 
				bnb_4bit_use_double_quant=True, 
				bnb_4bit_quant_type="nf4", 
				bnb_4bit_compute_dtype=torch.float16 
) 
model = AutoModelForCausalLM.from_pretrained("本地路径", quantization_config=quantization_config)

步骤10：测试显存占用

运行以下代码检查显存占用：

Python:

import torch

print(torch.cuda.memory_allocated() / 1024**2, "MB")
print(torch.cuda.memory_reserved() / 1024**2, "MB")

注意事项

显存限制：RTX 3060 12GB显存可能无法完全加载3B模型，建议使用量化或混合精度。
CPU模式：如果显存不足，可以在CPU上运行（速度较慢）：
Python:

model = model.to("cpu") inputs = inputs.to("cpu")

磁盘空间：3B模型文件较大，确保有足够的磁盘空间（通常需要10GB以上）。

示例代码

Python:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 加载模型和Tokenizer
model_name = "本地路径"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to("cuda")

# 运行推理
input_text = "你好，世界"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

通过以上步骤，你可以在Windows 11上成功部署3B本地模型，并充分利用RTX 3060 GPU进行加速推理。如果显存不足，可以尝试量化或切换到CPU模式。

cuda10.1下载

上一篇：10款高性能视频制作软件分享:新手必备的简单软件
下一篇：CUDA——windows系统安装（cuda 8.0安装）

在Windows 11上部署DeepSeek 3B本地模型:从零开始，轻松搞定!

“在Windows 11上部署DeepSeek 3B本地模型:从零开始，轻松搞定!” 网站介绍

硬件要求

步骤1：安装Python环境

步骤2：创建虚拟环境

步骤3：安装CUDA和cuDNN

下载CUDA Toolkit

验证CUDA安装

步骤4：安装PyTorch（支持CUDA）

步骤5：下载和加载3B模型

步骤6：保存模型到本地

步骤7：加载本地模型

步骤8：运行推理

步骤9：优化性能

使用混合精度（FP16）

使用bitsandbytes量化（可选）

步骤10：测试显存占用

注意事项

示例代码

更多相关网站