本地大模型部署与性能优化实战指南

Wed, 27 May 2026 19:00:00 +0800

前言

2023 年被称为「大模型元年」，但到了 2026 年，真正的革命才刚刚开始——不是在云端，而是在你的本地机器上。

如果你还在依赖 OpenAI API 做所有 AI 相关的工作，那你可能已经错过了一个重要的趋势：本地大模型正在以惊人的速度追赶云端模型的能力。今天，一个 7B 参数的量化模型在中端消费级显卡上就能跑出接近 GPT-3.5 的效果，而 70B 参数的模型在高端显卡上的表现甚至能在某些任务上超越 GPT-4。

更重要的是，本地部署带来了三个无可替代的优势：绝对的数据隐私、零 API 调用成本、完全的控制权。对于企业来说，这意味着敏感的内部文档永远不会离开公司内网；对于个人开发者来说，这意味着你可以 24/7 不间断地运行 AI 工作流而不用担心账单爆炸。

这篇文章是我过去两年部署本地大模型的经验总结。从最基础的 Ollama 一键部署，到深入 llama.cpp 的性能优化，再到企业级的 API 服务架构，我会把每一个踩过的坑、每一个优化技巧都毫无保留地分享给你。

一、为什么要部署本地大模型？

在谈论技术细节之前，让我们先回答一个根本问题：既然 OpenAI、Anthropic 这些公司已经提供了这么好用的 API，为什么还要费心自己部署本地大模型？

我给出的答案是四个「自由」。

1. 隐私自由

这是最核心的理由。当你把数据发送给 OpenAI API 时，你实际上放弃了对这些数据的控制权。虽然 OpenAI 的服务条款说不会用用户数据训练模型，但谁也无法保证 100% 的安全——更不用说政府监管、数据泄露、内部人员滥用这些潜在风险。

而本地部署意味着：

你的代码永远不会离开公司内网
客户的敏感数据永远在你的掌控之中
内部知识库的问答不会有任何泄露风险

我有一个朋友在金融公司工作，他们的合规部门绝对不允许任何客户数据出现在第三方 API 中。最后他们用本地部署的 Qwen-72B 搭建了内部的文档问答系统，成本只有云端方案的 1/10，安全性却高了几个数量级。

2. 成本自由

API 调用的成本看起来很低——每 1K tokens 几美分，但当你真的开始大规模使用时，账单会让你大吃一惊。

我做过一个简单的计算：如果一个开发团队有 10 个人，每人每天用 AI 辅助编程 4 小时，平均每 10 秒生成 100 tokens，那么一个月的 API 费用大概是：

10 人 × 4 小时 × 3600 秒 ÷ 10 秒 × 100 tokens = 1,440,000 tokens/天
1,440,000 × 30 天 = 43,200,000 tokens/月
按 GPT-4 Turbo $0.01/1K tokens 计算 = $432/月 ≈ ¥3100/月

而一张 RTX 4090 显卡的价格是 ¥15000 左右，能同时服务 5-10 个开发者，不到 5 个月就能回本。之后就是零边际成本。

更不用说那些需要批量处理的任务：清理 100 万条数据、生成 10 万个测试用例、对整个代码库做代码审查——这些任务在云端跑可能要花上万美元，但在本地显卡上跑，电费可能不到 100 块。

3. 控制自由

当你使用第三方 API 时，你永远不知道什么时候模型会被「优化」（实际上是降级），什么时候会被限流，什么时候会涨价。

2024 年 OpenAI 悄悄降低了 GPT-4 的推理能力，引发了大量开发者的抗议，但除了抱怨之外，大家什么也做不了——因为你没有控制权。

而本地部署意味着：

你可以永远锁定某个版本的模型
你可以根据自己的需求做 fine-tuning
你可以修改推理代码，添加自定义逻辑
你永远不会遇到「Rate Limit Exceeded」

4. 延迟自由

API 调用的网络延迟通常在 500ms 到 2s 之间，这对于交互式应用来说是很明显的卡顿。而本地模型的首 token 延迟可以做到 100ms 以内，打字机式的输出速度可以和人类思维同步。

我自己用本地模型做编程助手，那种「输入完立刻就有输出」的流畅感，是云端 API 永远给不了的。

二、本地大模型部署的技术栈概览

今天的本地大模型生态已经非常成熟，但同时也相当碎片化。为了不让你在各种工具之间迷失，我先给你画一张清晰的技术地图。

核心组件

任何本地大模型部署系统都包含这三个核心组件：

模型文件：经过量化的 GGUF 格式模型
推理引擎：负责加载模型和生成文本
API 层：对外提供标准的服务接口

推理引擎选择

目前主流的推理引擎有三个，各有其适用场景：

引擎	优势	劣势	适用场景
Ollama	部署最简单，模型库丰富，一键启动	自定义程度较低	个人使用，快速原型
llama.cpp	性能最高，支持最广，高度可定制	需要手动编译配置	性能敏感场景，嵌入式
vLLM	吞吐量最高，支持 PagedAttention	显存要求高	生产级多用户服务

我的建议是：

个人开发者或者想快速验证想法 → 直接用 Ollama
追求极致性能或者要在边缘设备部署 → 用 llama.cpp
企业级部署需要同时服务很多用户 → 用 vLLM

这篇文章我们会重点讲解 Ollama 和 llama.cpp，因为它们覆盖了 90% 的使用场景。

硬件选型指南

很多人问我：「部署本地大模型需要什么样的显卡？」

这里我给你一个非常实用的参考：

显存大小	能跑的最大模型	体验等级
8GB	7B Q4_K_M	可以用，速度一般
16GB	13B Q4_K_M / 7B FP16	流畅体验，推荐入门
24GB	34B Q4_K_M / 13B FP16	非常好的平衡配置
48GB	70B Q4_K_M / 34B FP16	准专业级体验
80GB+	70B FP16 / 120B Q4_K_M	专业级，接近云端体验

关键结论：显存大小比什么都重要。

不要太在意是 RTX 3090 还是 4090，也不要太在意显存带宽——只要能装下整个模型，推理速度就不会太慢。如果模型装不下，需要把部分层 offload 到内存，那速度会降到原来的 1/10 甚至更低。

我的推荐配置：

入门级：RTX 3090 24GB（二手约 ¥4000）→ 性价比之王
进阶级：RTX 4090 24GB（全新约 ¥15000）→ 功耗更低，速度更快
专业级：A100 40GB/80GB（二手）→ 企业级部署

如果你只有笔记本也没关系，现在的 7B 量化模型在 M2/M3 Mac 上也能跑得相当流畅。甚至在没有显卡的纯 CPU 环境下，llama.cpp 也能让你体验到大模型的魅力——只是速度会慢一些。

三、Ollama：最简单的本地大模型部署方案

如果你是第一次接触本地大模型，Ollama 是你的最佳起点。

Ollama 做对了一件事：它把所有复杂的东西都藏起来了。你不需要了解量化，不需要编译代码，不需要处理依赖，只需要一行命令就能跑起一个大模型。

为什么选择 Ollama？

我总结了 Ollama 的几个核心优势：

零配置启动：安装完直接 ollama run qwen 就能用
自动模型管理：自动下载、缓存、切换模型
内置 API 服务：启动就带 OpenAI 兼容的 REST API
跨平台支持：Windows、macOS、Linux 全支持
活跃的社区：每天都有新的模型被添加到模型库

当然 Ollama 也不是完美的——它牺牲了一些自定义能力来换取易用性。但对于 80% 的用户来说，Ollama 提供的功能已经完全够用了。

安装 Ollama

安装过程简单到几乎不需要说明：

Linux：

curl -fsSL https://ollama.com/install.sh | sh

macOS： 从官网下载 DMG 安装包，或者用 Homebrew：

brew install ollama

Windows： 从官网下载安装包，下一步下一步就好。

安装完成后，Ollama 会自动在后台运行一个服务，监听 11434 端口。

第一个模型

让我们跑一个最简单的模型来验证安装：

ollama run qwen:7b

第一次运行时，Ollama 会自动下载模型文件（大约 4GB 左右），下载完成后直接进入交互式界面：

>>> 你好，请简单介绍一下你自己
你好！我是通义千问，由阿里巴巴开发的人工智能助手。我可以帮助你回答问题、
提供信息、进行对话交流。有什么我可以帮助你的吗？

就是这么简单——你已经拥有了一个运行在本地的 AI 助手。

按 Ctrl + D 或者输入 /bye 退出交互模式。

常用模型推荐

Ollama 的模型库（https://ollama.com/library）已经有上千个模型，这里我推荐几个经过实际验证的好模型：

通用对话：

qwen:7b → 中文最好的 7B 模型，强烈推荐
llama3:8b → Meta 官方模型，英文很强，中文也不错
phi3:medium → 微软小模型，128K 上下文，速度极快

编程助手：

deepseek-coder:6.7b → 目前最好的开源代码模型之一
codellama:13b → Meta 官方代码模型

长上下文：

qwen:14b-chat-v1.5-q4_0 → 128K 上下文，中文支持好
yi:34b → 200K 上下文窗口

我的日常配置是：用 qwen:7b 做快速问答，用 deepseek-coder:6.7b 做编程辅助，偶尔用 qwen:32b 处理复杂任务。

（第一部分完，约 2400 字）

四、Ollama 高级配置与自定义模型

虽然 Ollama 的默认配置已经很好用了，但了解一些高级配置能让你发挥出它的全部潜力。

Modelfile：自定义你的模型

Ollama 最强大的功能之一就是 Modelfile——它相当于 Dockerfile 但用于大模型。通过 Modelfile，你可以自定义系统提示词、参数设置、甚至导入自己的 GGUF 模型。

一个简单的 Modelfile 示例：

# 基础模型
FROM qwen:7b

# 设置系统提示词
SYSTEM """
你是一个专业的编程助手，专注于 Python 和 C++。
回答问题时，请先给出简短的答案，然后提供代码示例。
代码必须是可运行的，包含必要的注释。
"""

# 设置温度（越低越确定，越高越有创造力）
PARAMETER temperature 0.3

# 设置上下文窗口大小
PARAMETER num_ctx 8192

# 设置 stop 词
PARAMETER stop "<|endoftext|>"

保存为 Modelfile，然后创建自定义模型：

ollama create my-coder -f Modelfile

现在你就可以运行自己的定制模型了：

ollama run my-coder

我强烈建议你为不同的任务创建不同的 Modelfile。我自己就维护了好几个：

my-coder：编程助手
my-writer：写作助手
my-explainer：概念解释专家

OpenAI 兼容 API

Ollama 内置了一个 OpenAI 兼容的 API，这意味着你几乎不需要修改代码，就能把所有使用 OpenAI API 的项目切换到本地模型。

启动 Ollama 服务后，API 就在 http://localhost:11434/v1。

Python 示例：

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # 可以是任意字符串
)

response = client.chat.completions.create(
    model='qwen:7b',
    messages=[
        {'role': 'user', 'content': '什么是 RAG？'}
    ]
)

print(response.choices[0].message.content)

curl 示例：

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen:7b",
    "messages": [{"role": "user", "content": "你好"}]
  }'

这就是 Ollama 最可怕的地方——它提供了和 OpenAI 完全一样的接口，但完全免费、完全本地、没有 rate limit。我已经把我所有的个人项目都从 OpenAI 切换到了 Ollama + Qwen，体验几乎没有差别。

性能优化参数

Ollama 提供了几个关键的性能参数，可以在运行时指定：

ollama run qwen:7b --num-gpu 99 --num-thread 8 --num-ctx 4096

参数说明：

--num-gpu：使用多少层 GPU 加速。99 表示尽可能多（推荐值）
--num-thread：CPU 线程数，建议设为 CPU 物理核心数
--num-ctx：上下文窗口大小，越大越吃显存
--low-vram：低显存模式，用速度换显存

如果你发现模型跑起来很慢，大概率是 GPU 层数设置不对。可以用 ollama show qwen:7b --system 查看当前的配置。

五、llama.cpp：高性能推理引擎深度解析

如果说 Ollama 是「开箱即用」，那么 llama.cpp 就是「性能怪兽」。它是目前最快的本地大模型推理引擎，没有之一。

llama.cpp 最初只是一个开发者的业余项目，目的是让 Llama 模型能在苹果 Silicon 上运行。但现在，它已经发展成了一个跨平台的通用推理框架，支持几乎所有的主流模型和硬件。

为什么 llama.cpp 这么快？

llama.cpp 的性能优势来自于几个关键的设计决策：

1. 纯 C++ 实现，零依赖

整个代码库是纯 C++ 写的，没有 Python 开销，没有依赖地狱。这意味着它能编译到任何平台，从 x86 服务器到 ARM 嵌入式设备，甚至到 WebAssembly。

2. 手写 SIMD 优化

作者 Georgi Gerganov 为每种架构都手写了 SIMD 优化代码：

ARM：NEON 优化
x86：AVX2 / AVX512 优化
Apple：Metal 加速
NVIDIA：CUDA 加速

这些手写的汇编级优化，比编译器自动优化快 2-3 倍。

3. 激进的量化技术

llama.cpp 首创了 K-quant 量化方案，能在 4-bit 量化下保持接近 FP16 的精度，同时速度提升 2-4 倍，显存占用减少 75%。

编译 llama.cpp

虽然 llama.cpp 也提供了预编译的二进制，但从源码编译能获得最佳性能：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

# 基础编译（CPU only）
make

# 带 CUDA 加速（NVIDIA 显卡）
make LLAMA_CUDA=1

# 带 Metal 加速（Apple Silicon）
make LLAMA_METAL=1

# 带 AVX2 优化
make LLAMA_AVX2=1

编译完成后，你会得到几个关键的可执行文件：

./main：命令行推理工具
./quantize：模型量化工具
./server：HTTP API 服务器

获取 GGUF 模型

llama.cpp 使用 GGUF 格式的模型。你可以从 Hugging Face 下载已经量化好的模型，也可以自己量化。

推荐几个高质量的量化模型源：

https://huggingface.co/Qwen（通义千问官方）
https://huggingface.co/TheBloke（最著名的量化作者）
https://huggingface.co/bartowski（高质量量化）

下载示例：

# 下载 Qwen-7B 的 Q4_K_M 量化版本
wget https://huggingface.co/TheBloke/Qwen-7B-GGUF/resolve/main/qwen-7b.Q4_K_M.gguf

运行推理

有了模型文件，就可以用 main 工具运行推理了：

./main -m qwen-7b.Q4_K_M.gguf \
  -n 512 \
  -c 4096 \
  -t 8 \
  --color \
  -p "请解释一下什么是大模型的注意力机制"

关键参数：

-m：模型文件路径
-n：生成的最大 token 数
-c：上下文窗口大小
-t：线程数
--color：彩色输出
-p：提示词
-i：交互式模式
--n-gpu-layers 99：GPU 加速层数

运行后你会看到类似这样的性能输出：

llama_print_timings:        load time =   542.31 ms
llama_print_timings:      sample time =    45.21 ms /   256 runs   (    0.18 ms per token,  5662.45 tokens per second)
llama_print_timings: prompt eval time =   312.45 ms /    64 tokens (    4.88 ms per token,   204.83 tokens per second)
llama_print_timings:        eval time =  6845.23 ms /   255 runs   (   26.84 ms per token,    37.25 tokens per second)
llama_print_timings:       total time =  7542.12 ms

这里最关键的指标是 eval time 后面的 tokens per second。在 RTX 4090 上，7B 模型 Q4 量化通常能跑到 80-120 token/s，这个速度比大多数人阅读的速度都快。

六、模型量化技术：GGUF 格式与量化策略

量化是本地大模型部署中最重要的技术，没有之一。它决定了你的模型能跑多快、能跑多大的模型、需要多少显存。

什么是量化？

简单来说，量化就是把模型权重从高精度的浮点数（FP16，占 2 字节）转换成低精度的整数（比如 INT4，占 0.5 字节），从而大幅减小模型体积和推理开销。

一个 7B 参数的模型：

FP16：14GB 显存 → 几乎没有消费级显卡能装下
Q8_0：7GB 显存 → 1080ti 以上可以跑
Q4_K_M：3.8GB 显存 → 几乎所有显卡都能跑

也就是说，量化让你能用 1/4 的显存获得几乎一样的推理效果。

GGUF 格式详解

GGUF 是 llama.cpp 团队在 2023 年推出的新格式，用来替代之前的 GGML 格式。它有几个关键改进：

单一文件包含所有信息：模型架构、权重、量化信息、超参数、词表都在一个文件里
可扩展设计：支持添加新功能而不破坏兼容性
内存映射加载：模型可以直接从磁盘映射到内存，加载速度极快
多种量化类型：支持从 Q2_K 到 F16 的各种精度

量化等级选择

llama.cpp 提供了多种量化等级，从极致压缩到高精度：

量化等级	大致精度	7B 模型大小	质量损失	推荐场景
Q2_K	2-bit	2.7GB	明显	极限压缩，古董机器
Q3_K_M	3-bit	3.6GB	轻微	显存极其紧张
Q4_K_M	4-bit	4.7GB	几乎不可察	推荐大多数场景
Q5_K_M	5-bit	5.6GB	可忽略	追求高质量
Q6_K	6-bit	6.6GB	检测不到	最高性价比
Q8_0	8-bit	8.5GB	理论级	研究对比
F16	16-bit	14GB	无	不差钱的土豪

我的选择建议：

大多数情况下：Q4_K_M → 速度、体积、质量的完美平衡
对质量有要求：Q5_K_M 或 Q6_K → 质量几乎和 FP16 一样
显存不够：Q3_K_M → 牺牲一点质量换体积

无数评测都表明，Q4_K_M 是真正的「甜点级」量化——大多数人在盲测中都无法区分它和 FP16 的区别，但体积只有 1/3。

自己动手量化模型

如果你有一个 PyTorch 格式的模型，想把它转成 GGUF，可以用 llama.cpp 的量化工具：

# 第一步：把 PyTorch 模型转成 FP16 的 GGUF
python convert.py /path/to/your/model --outtype f16

# 第二步：量化成 Q4_K_M
./quantize ./your-model-f16.gguf ./your-model-q4_k_m.gguf Q4_K_M

整个过程大约需要 5-10 分钟，取决于你的模型大小。

量化完成后，我强烈建议你做一个简单的对比测试：用 FP16 和量化版本回答同一个问题，看看输出质量有没有明显下降。大多数情况下，你会惊讶于量化技术的神奇——除了速度变快、显存占用变小，其他什么都没变。

（第二部分完，约 2500 字）

七、性能调优最佳实践

很多人部署完本地模型后说「怎么这么慢」，但其实 90% 的情况都是配置不对。这里我把所有能提速的技巧都列出来，按照效果从大到小排序。

1. 确保 GPU 加速真正生效

这是最常见也最致命的问题。很多人以为自己在用 GPU，但实际上在用 CPU 推理，速度差了 10 倍以上。

llama.cpp 检查方法： 看启动日志里有没有这样的行：

llm_load_tensors: using CUDA for GPU acceleration
llm_load_tensors: offloaded 35/35 layers to GPU

如果没有，说明你的 GPU 加速没生效。重新编译时加上 LLAMA_CUDA=1，并且确保 CUDA 驱动已经正确安装。

Ollama 检查方法：

ollama run qwen:7b --verbose

看输出里的 ggml_init_cublas 相关信息，确认 CUDA 已启用。

2. 调整 GPU offload 层数

即使 GPU 加速生效了，如果 offload 的层数不够，速度依然会很慢。

基本原则：

如果你有足够显存，把所有层都 offload 到 GPU：--n-gpu-layers 99
如果显存不够，逐步减少层数，直到模型能加载且不会 OOM
哪怕只能 offload 一半的层，速度也会有明显提升

3. 线程数优化

CPU 线程数的设置也很关键，不是越多越好。

推荐设置：

Intel CPU：设为物理核心数（不是超线程数）
AMD CPU：设为物理核心数 × 0.8
Apple Silicon：设为性能核心数

如果设置得太高，线程竞争反而会让速度下降。我通常从物理核心数的一半开始试，每次 +2，找到速度最快的那个值。

4. 批量处理优化

如果你需要批量处理很多请求，一定要用批量推理。批量处理 8 个请求的时间，大约只比处理 1 个请求多 20%，吞吐量提升 4-5 倍。

llama.cpp 的批量参数：

./main -m model.gguf -b 512 --batch-size 512

5. 其他小技巧

使用 fast tokenizer：llama.cpp 有一个快速的 tokenizer 实现，能让 prompt processing 快 2-3 倍
关闭日志：大量的控制台输出会拖慢速度，生产环境建议关闭
使用 SSD：模型加载速度，SSD 比 HDD 快 10 倍以上
关闭超频：GPU 超频带来的那点性能提升，远不如稳定运行重要

八、企业级 API 服务搭建

个人用 Ollama 足够了，但如果要给团队或者整个公司提供服务，就需要一个更健壮的架构。

架构设计

我推荐的企业级本地大模型服务架构：

用户请求 → 负载均衡 (Nginx) → API 网关 (FastAPI) → 推理引擎池 (llama.cpp)
                                   ↓
                            请求队列 / 限流
                                   ↓
                            日志和监控系统

用 llama.cpp 搭建 API 服务

llama.cpp 自带了一个 HTTP 服务器：

./server -m qwen-14b.Q4_K_M.gguf \
  -c 8192 \
  -t 16 \
  --n-gpu-layers 99 \
  --host 0.0.0.0 \
  --port 8080

这个服务器提供了简单的 REST API，支持 chat completion 和 text completion。

但是对于生产环境，我建议在外面包一层 FastAPI 网关，添加这些功能：

API Key 认证
请求限流
日志记录
错误重试
多模型路由

FastAPI 网关示例

from fastapi import FastAPI, HTTPException, Depends
from fastapi.security import APIKeyHeader
import httpx
import asyncio
from slowapi import Limiter, _rate_limit_exceeded_handler
from slowapi.util import get_remote_address

app = FastAPI(title="本地大模型 API 网关")
limiter = Limiter(key_func=get_remote_address)
app.state.limiter = limiter
app.add_exception_handler(429, _rate_limit_exceeded_handler)

API_KEYS = {"your-secret-key-here"}
api_key_header = APIKeyHeader(name="X-API-Key")

async def verify_api_key(api_key: str = Depends(api_key_header)):
    if api_key not in API_KEYS:
        raise HTTPException(status_code=403, detail="Invalid API key")
    return api_key

@app.post("/v1/chat/completions", dependencies=[Depends(verify_api_key)])
@limiter.limit("10/minute")
async def chat_completions(request: Request):
    data = await request.json()
    
    async with httpx.AsyncClient(timeout=120.0) as client:
        response = await client.post(
            "http://localhost:8080/v1/chat/completions",
            json=data
        )
        return response.json()

监控和日志

生产环境必须要有监控。我推荐用 Prometheus + Grafana 监控这些指标：

请求吞吐量（QPS）
平均响应时间
P50 / P95 / P99 延迟
显存使用率
GPU 利用率
错误率

可以用 nvidia-smi 或者 pynvml 采集 GPU 指标，用 Prometheus 客户端暴露指标端口。

九、完整实战案例：搭建本地 RAG 系统

说了这么多理论，让我们来做一个完整的实战项目：用本地大模型搭建一个私有的 RAG（检索增强生成）知识库系统。

系统架构

我们的 RAG 系统包含三个核心组件：

文档处理：PDF/Word 文档 → 文本切片 → 向量 embedding
向量检索：用 FAISS 做相似度搜索
LLM 回答：本地大模型根据检索结果生成答案

完整代码实现

首先安装依赖：

pip install langchain faiss-cpu sentence-transformers pypdf

然后创建 local_rag.py：

from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
import os

# 1. 初始化本地 Embedding 模型
embeddings = HuggingFaceEmbeddings(
    model_name="BAAI/bge-small-zh-v1.5",
    model_kwargs={"device": "cuda"}
)

# 2. 加载并处理文档
def load_documents(pdf_path):
    loader = PyPDFLoader(pdf_path)
    documents = loader.load()
    
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=500,
        chunk_overlap=50,
        length_function=len
    )
    
    return text_splitter.split_documents(documents)

# 3. 创建向量数据库
def create_vector_db(documents, db_path="./faiss_index"):
    db = FAISS.from_documents(documents, embeddings)
    db.save_local(db_path)
    return db

# 4. 加载向量数据库
def load_vector_db(db_path="./faiss_index"):
    return FAISS.load_local(db_path, embeddings, allow_dangerous_deserialization=True)

# 5. 初始化本地 LLM（通过 Ollama）
llm = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",
    model="qwen:14b",
    temperature=0.1
)

# 6. 创建 RAG 链
def create_rag_chain(vector_db):
    return RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        retriever=vector_db.as_retriever(search_kwargs={"k": 3}),
        return_source_documents=True
    )

# 7. 提问
def ask_question(chain, question):
    result = chain({"query": question})
    print(f"问题：{question}")
    print(f"\n回答：{result['result']}")
    print("\n引用来源：")
    for i, doc in enumerate(result["source_documents"]):
        print(f"  [{i+1}] 第 {doc.metadata['page']} 页")

# 使用示例
if __name__ == "__main__":
    # 第一次运行：处理文档并创建索引
    if not os.path.exists("./faiss_index"):
        print("正在处理文档...")
        docs = load_documents("./your-document.pdf")
        db = create_vector_db(docs)
        print(f"处理完成，共 {len(docs)} 个文本块")
    else:
        db = load_vector_db()
    
    chain = create_rag_chain(db)
    
    # 提问
    ask_question(chain, "这篇文档的主要内容是什么？")
    ask_question(chain, "请解释第三章提到的技术方案")

整个系统完全运行在本地，没有任何数据离开你的机器。你可以用它来处理合同、内部文档、技术手册等任何敏感材料。

这个基础版本你还可以扩展很多功能：

支持更多文档格式（Word、Markdown、HTML）
添加 Web UI（用 Gradio 或者 Streamlit）
支持多轮对话
添加引用标记和来源高亮
实现增量索引更新

十、常见问题与解决方案

最后，我整理了一些大家最常遇到的问题以及对应的解决方案。

Q: 为什么我的模型输出都是乱码？ A: 最可能的原因是模型文件损坏了。重新下载模型文件，或者检查 MD5 校验和。另外，确保你用的是 GGUF 格式而不是旧的 GGML 格式。

Q: 运行时提示 CUDA out of memory 怎么办？ A: 三个解决方案：

降低上下文窗口大小（-c 2048 而不是 8192）
选择更低量化等级的模型（Q4 而不是 Q8）
减少 GPU offload 的层数，把部分层放到 CPU 上

Q: 中文回答效果不好怎么办？ A: 首先确认你用的是对中文优化过的模型。Qwen 系列、Yi 系列、XVERSE 系列都是中文效果比较好的模型。不要用只在英文语料上训练的模型来做中文任务。

Q: 如何让模型输出更稳定？ A: 降低 temperature 参数（比如设为 0.1-0.3），增加 top_p。另外，在系统提示词里明确要求输出格式，也能提高稳定性。

Q: 多个用户同时访问很慢怎么办？ A: 首先，开启批量推理功能。其次，考虑使用 vLLM 替代 llama.cpp，它的 PagedAttention 技术能大幅提升并发性能。最后，如果用户量真的很大，可以考虑多卡部署，用负载均衡分摊请求。

Q: 模型总是产生幻觉怎么办？ A: 幻觉是所有大模型的固有问题，无法完全消除，但可以缓解：

在提示词里明确要求「只使用提供的上下文信息，不要编造内容」
降低温度参数
使用 RAG 技术提供事实依据
对输出做事实校验

总结

我们从最基础的 Ollama 一键部署，讲到了 llama.cpp 的深度优化，再到企业级的 API 服务架构，最后还用一个完整的 RAG 系统做了实战演示。

回顾一下本地大模型的核心优势：

✅ 绝对的数据隐私——数据永远不离开你的机器
✅ 零边际成本——一次投入，无限使用
✅ 完全的控制权——想怎么改就怎么改
✅ 极低的延迟——本地响应比云端快得多

当然，本地大模型也不是银弹。对于需要最强模型能力、或者需要全球分布式部署的场景，云端依然是更好的选择。但对于 80% 的日常使用场景——编程辅助、文档问答、数据处理、个人助手——本地部署已经完全够用，甚至体验更好。

2026 年的今天，本地大模型已经跨过了「能用」到「好用」的临界点。你不需要拥有 A100 才能开始，一张普通的 3090，甚至是没有显卡的 CPU，都能让你体验到本地 AI 的魅力。

不要等待所谓的「完美模型」出现。现在就开始动手，搭建属于你自己的本地 AI 系统。当你第一次看到 AI 在自己的机器上流畅地生成回复时，那种掌控感和成就感，是任何云端 API 都给不了的。

（全文完，约 7800 字）

大模型 on Tech Snippets - 嵌入式技术笔记