百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文
在Windows 11上部署DeepSeek 3B本地模型:从零开始,轻松搞定!

在Windows 11上部署DeepSeek 3B本地模型:从零开始,轻松搞定!

  • 网站名称:在Windows 11上部署DeepSeek 3B本地模型:从零开始,轻松搞定!
  • 网站分类:技术文章
  • 收录时间:2025-07-08 14:40
  • 网站地址:

进入网站

“在Windows 11上部署DeepSeek 3B本地模型:从零开始,轻松搞定!” 网站介绍

你是否想在Windows 11上部署一个强大的3B本地模型,充分利用你的GPU?本文将手把手教你如何完成这一任务,即使你是初学者也能轻松上手!

以我本人电脑的配置,CPU i7-10700K,内存32G,显卡3060 12G为例,在本地部署一个deepseel的3b模型。

硬件要求

  • CPU:Intel i7-10700K(或更高)
  • 内存:32GB RAM
  • 显卡:NVIDIA RTX 3060 12GB
  • 操作系统:Windows 11

步骤1:安装Python环境

  1. 下载并安装Python 3.8或更高版本(推荐3.9或3.10)Windows11也可以直接在Microsoft Store中安装。
  2. 安装时勾选“Add Python to PATH”。

步骤2:创建虚拟环境

  1. 打开命令提示符(CMD)或PowerShell。
  2. 创建虚拟环境:

CMD:

python -m venv myenv
  1. 激活虚拟环境:

CMD:

myenv\Scripts\activate

步骤3:安装CUDA和cuDNN

为了充分利用RTX 3060 GPU,安装CUDA和cuDNN:

  1. 安装CUDA Toolkit
  2. 下载与RTX 3060兼容的CUDA版本(如CUDA 11.7或12.x)。
CMD:运行nvidia-smi.exe检查你的显卡最高支持的CUDA版本

确保已安装最新的NVIDIA显卡驱动:

  1. 访问 NVIDIA驱动下载页面www.nvidia.com/en-us/drivers/。
  2. 选择你的显卡型号(GeForce RTX 3060)和操作系统(Windows 11)。
  3. 下载并安装最新的驱动程序。

下载CUDA Toolkit

  1. 访问 CUDA Toolkit下载页面developer.nvidia.com/cuda-toolkit。
  2. 选择与你的操作系统和需求匹配的CUDA版本。
  3. 下载安装程序(推荐选择exe [local]格式)。

验证CUDA安装

  1. 打开命令提示符(CMD)或PowerShell。
  2. 运行以下命令检查CUDA版本:
nvcc --version

如果显示CUDA版本号(如11.7或12.0),说明安装成功。


步骤4:安装PyTorch(支持CUDA)

在虚拟环境中安装支持CUDA的PyTorch:

CMD:

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
  • 确保安装的PyTorch版本与CUDA版本匹配。



步骤5:下载和加载3B模型

使用transformers库下载和加载3B模型:

  1. 安装transformers库:

CMD:

pip install transformers
  1. 下载模型:

Python:

from transformers import AutoModelForCausalLM, AutoTokenizer 
model_name = "模型名称" # 例如 "EleutherAI/gpt-neo-2.7B" 
tokenizer = AutoTokenizer.from_pretrained(model_name) 
model = AutoModelForCausalLM.from_pretrained(model_name)
  1. 将模型移动到GPU:

Python:

model = model.to("cuda")

步骤6:保存模型到本地

将模型保存到本地,避免每次重新下载:

Python:

model.save_pretrained("本地路径")
tokenizer.save_pretrained("本地路径")

步骤7:加载本地模型

从本地加载模型:

Python:

model = AutoModelForCausalLM.from_pretrained("本地路径")
tokenizer = AutoTokenizer.from_pretrained("本地路径")
model = model.to("cuda")

步骤8:运行推理

使用GPU进行推理:

Python:

input_text = "输入文本"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

步骤9:优化性能

使用混合精度(FP16)

启用混合精度以减少显存占用并加速推理:

Python:

from torch.cuda.amp import autocast

with autocast():
    outputs = model.generate(**inputs, max_length=50)

使用bitsandbytes量化(可选)

如果显存不足,可以使用bitsandbytes库进行量化:

  1. 安装bitsandbytes:

CMD:

pip install bitsandbytes
  1. 加载量化模型:

Python:

from transformers import BitsAndBytesConfig 
quantization_config = BitsAndBytesConfig( 
				load_in_4bit=True, 
				bnb_4bit_use_double_quant=True, 
				bnb_4bit_quant_type="nf4", 
				bnb_4bit_compute_dtype=torch.float16 
) 
model = AutoModelForCausalLM.from_pretrained("本地路径", quantization_config=quantization_config)

步骤10:测试显存占用

运行以下代码检查显存占用:

Python:

import torch

print(torch.cuda.memory_allocated() / 1024**2, "MB")
print(torch.cuda.memory_reserved() / 1024**2, "MB")

注意事项

  • 显存限制:RTX 3060 12GB显存可能无法完全加载3B模型,建议使用量化或混合精度。
  • CPU模式:如果显存不足,可以在CPU上运行(速度较慢):
  • Python:
model = model.to("cpu") inputs = inputs.to("cpu")
  • 磁盘空间:3B模型文件较大,确保有足够的磁盘空间(通常需要10GB以上)。

示例代码

Python:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 加载模型和Tokenizer
model_name = "本地路径"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to("cuda")

# 运行推理
input_text = "你好,世界"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

通过以上步骤,你可以在Windows 11上成功部署3B本地模型,并充分利用RTX 3060 GPU进行加速推理。如果显存不足,可以尝试量化或切换到CPU模式。