大语言模型（LLM）原理与架构解析

2026-03-09 4 min read AI

AI Summary 核心观点总结

结论先行：大语言模型（LLM）的核心是Transformer架构，其通过自注意力机制实现对上下文的理解，而模型架构的选择（如GPT的自回归与BERT的双向编码）直接决定了其任务适用性、资源消耗与推理性能。

关键要点1：Transformer的自注意力（Self-Attention）与多头注意力（Multi-Head Attention）机制是模型理解词语间复杂依赖关系的基石，其计算复杂度是影响模型规模和推理速度的关键因素。

关键要点2：GPT（自回归解码器）与BERT（双向编码器）代表了两种核心架构范式，分别擅长文本生成和语言理解任务，选择时需权衡任务需求、计算资源与延迟要求。

关键要点3：从Tokenization、模型参数到推理部署，每一步都涉及显存、计算与性能的深度权衡，生产级应用必须考虑量化、KV缓存、连续批处理等优化技术。

本摘要由 AI 自动生成，基于文章核心内容提炼

大语言模型（LLM）原理与架构深度解析：从Transformer到生产部署

各位工程师朋友，大家好。当我们谈论当今AI浪潮的基石时，大语言模型（Large Language Model, LLM）无疑是核心引擎。从ChatGPT的惊艳对话到GitHub Copilot的代码补全，其背后都是一套精妙的架构在支撑。对于有经验的Java/后端工程师而言，理解LLM的原理，不仅是跟上技术趋势，更是为未来构建AI增强型应用打下坚实基础。本文将从最核心的Transformer架构出发，深入剖析其机制，对比主流模型范式，并最终落脚于参数量、显存与推理性能的工程现实，带你系统性地穿越LLM的技术栈。

引言：为什么是Transformer？

在Transformer出现之前，循环神经网络（RNN）及其变体LSTM、GRU是处理序列数据的主流。然而，RNN的序列依赖特性导致其难以并行计算，且存在长程依赖梯度消失的问题。2017年，Google在论文《Attention Is All You Need》中提出的Transformer架构，彻底摒弃了循环结构，完全依赖注意力机制（Attention Mechanism）来建立输入序列中所有元素之间的全局依赖关系。这种设计带来了前所未有的并行化能力和对长上下文的理解力，成为了当今所有主流LLM（如GPT、BERT、T5、LLaMA）的骨架。

理解Transformer，是理解一切现代LLM的钥匙。

核心概念：Transformer架构核心机制

Transformer是一个典型的编码器-解码器（Encoder-Decoder）结构。但对于LLM，我们通常关注其变体：纯解码器架构（如GPT系列）或纯编码器架构（如BERT）。其最核心的创新在于自注意力（Self-Attention）和多头注意力（Multi-Head Attention）。

1. Self-Attention（自注意力）机制

想象一下你在阅读一段代码：“User user = userRepository.findById(id);”。要理解第二个“user”，你需要关联到第一个“User”类型声明和“userRepository”这个对象。自注意力机制让模型中的每个“词元（Token）”都能直接“看到”序列中的所有其他词元，并计算一个加权关联度。

其数学过程可分为三步：

线性变换：对每个词元的输入向量 X，分别乘以三个权重矩阵 W_Q, W_K, W_V，得到查询（Query）、键（Key）、值（Value）向量。 Q = X * W_Q, K = X * W_K, V = X * W_V
计算注意力分数：计算Query与所有Key的点积，用以衡量词元间的相关性。随后进行缩放（除以Key向量维度的平方根sqrt(d_k)）并应用Softmax归一化，得到注意力权重。 Attention(Q, K, V) = softmax(Q * K^T / sqrt(d_k)) * V
加权求和：用上一步得到的权重对Value向量进行加权求和，得到该词元新的、融入了全局上下文信息的表示。

为什么除以sqrt(d_k)？ 防止点积结果过大，导致Softmax函数进入梯度极小的饱和区，影响训练稳定性。

2. Multi-Head Attention（多头注意力）

单一的自注意力机制可能只关注到一种类型的依赖关系（例如语法依赖）。多头注意力则将这个过程并行化多次。

过程：将Q、K、V向量在特征维度上切分成h个头（例如，512维向量分成8个头，每个头64维），在每个头上独立执行自注意力计算。最后将h个头的输出拼接起来，再经过一次线性变换。
优势：允许模型同时关注来自不同表示子空间的信息。例如，一个头关注语法一致性，另一个头关注指代关系，第三个头关注情感关联。这极大地增强了模型的表征能力。

下图展示了一个简化的Transformer解码器层（以GPT为例）的核心数据流：

graph TD
    subgraph “输入/上一层输出”
        A[输入词元向量]
    end

    subgraph “多头自注意力层”
        B[线性变换生成 Q, K, V]
        C[分割为多个头]
        D[各头独立计算 Scaled Dot-Product Attention]
        E[拼接多头输出]
        F[线性投影输出]
    end

    subgraph “前馈神经网络层”
        G[位置逐词前馈网络]
    end

    subgraph “层归一化与残差连接”
        H[Add & LayerNorm]
        I[Add & LayerNorm]
    end

    subgraph “输出”
        J[输出给下一层/预测头]
    end

    A --> H
    H --> B
    F --> I
    I --> G
    G --> I
    I --> J

    B --> C
    C --> D
    D --> E
    E --> F

（注：为简化，图中省略了掩码（Mask）和位置编码（Positional Encoding）的细节。）

实战代码：手撕一个Self-Attention模块

理论之后，让我们用PyTorch实现一个最基础的Self-Attention模块，以巩固理解。

import torch
import torch.nn as nn
import torch.nn.functional as F
import math

class SelfAttention(nn.Module):
    """一个简单的单头自注意力模块"""
    def __init__(self, embed_dim, head_dim):
        super().__init__()
        self.embed_dim = embed_dim
        self.head_dim = head_dim
        # 通常 head_dim * num_heads = embed_dim
        self.q_proj = nn.Linear(embed_dim, head_dim)
        self.k_proj = nn.Linear(embed_dim, head_dim)
        self.v_proj = nn.Linear(embed_dim, head_dim)
        self.out_proj = nn.Linear(head_dim, embed_dim) # 可选的输出投影

    def forward(self, x, mask=None):
        # x: [batch_size, seq_len, embed_dim]
        batch_size, seq_len, _ = x.shape

        # 1. 线性投影得到 Q, K, V
        Q = self.q_proj(x) # [batch, seq, head_dim]
        K = self.k_proj(x)
        V = self.v_proj(x)

        # 2. 计算缩放点积注意力分数
        scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.head_dim) # [batch, seq, seq]

        # 3. 可选：应用注意力掩码（如因果掩码用于GPT）
        if mask is not None:
            scores = scores.masked_fill(mask == 0, float('-inf'))

        # 4. Softmax 归一化得到权重
        attn_weights = F.softmax(scores, dim=-1) # [batch, seq, seq]

        # 5. 加权求和
        context = torch.matmul(attn_weights, V) # [batch, seq, head_dim]

        # 6. 输出投影（可选，用于调整维度）
        output = self.out_proj(context) # [batch, seq, embed_dim]
        return output, attn_weights

# 测试代码
if __name__ == "__main__":
    embed_dim = 512
    head_dim = 64
    batch_size = 2
    seq_len = 10

    model = SelfAttention(embed_dim, head_dim)
    dummy_input = torch.randn(batch_size, seq_len, embed_dim)

    # 创建一个下三角因果掩码（用于自回归生成）
    causal_mask = torch.tril(torch.ones(seq_len, seq_len)).unsqueeze(0).unsqueeze(0) # [1, 1, seq, seq]

    output, weights = model(dummy_input, mask=causal_mask)
    print(f"输入形状: {dummy_input.shape}")
    print(f"输出形状: {output.shape}")
    print(f"注意力权重形状: {weights.shape}")
    print(f"注意力权重（第一个样本，最后一个词元）: \n{weights[0, -1]}")

这段代码清晰地展示了自注意力计算的每一步。在生产级的Transformer实现中（如Hugging Face transformers库），会使用更优化的矩阵运算和融合内核，但核心逻辑与此一致。

GPT vs BERT：架构差异与适用场景对比

虽然都基于Transformer，但GPT和BERT选择了不同的部件，形成了截然不同的能力。

特性	GPT (Generative Pre-trained Transformer)	BERT (Bidirectional Encoder Representations from Transformers)
核心架构	Transformer 解码器	Transformer 编码器
注意力机制	带掩码的自注意力（因果掩码）。每个词元只能关注自身及之前的词元，保证自回归生成。	完全自注意力。每个词元能关注序列中的所有词元（包括前后文），获得双向上下文信息。
预训练任务	自回归语言建模（Next Token Prediction）。给定前文，预测下一个词。	掩码语言建模（MLM）和下一句预测（NSP）。随机遮盖部分词元，让模型根据双向上下文预测被遮盖的词。
数据流	单向的、顺序的。	双向的、全局的。
典型优势	文本生成（对话、创作、续写）、代码生成。生成过程连贯、自然。	语言理解（文本分类、命名实体识别、情感分析、问答）。对上下文含义捕捉深刻。
代表模型	GPT-3, GPT-4, LLaMA, Claude	BERT, RoBERTa, ALBERT
推理模式	自回归（逐个Token生成），耗时与生成长度成正比。	前向传播一次获得整个序列的表示，速度快。

架构图示意差异：

GPT（解码器）：输入序列经过带掩码的多头自注意力层（防止信息泄露），然后经过前馈神经网络，重复N层。输出用于预测下一个词。
BERT（编码器）：输入序列经过完全的多头自注意力层，然后经过前馈神经网络，重复N层。输出是每个输入词元的上下文化表示，可用于各种下游任务。

如何选择？

需要生成文本或代码 -> 选择GPT类模型。
需要文本分类、提取信息或理解语义 -> 选择BERT类模型。
许多现代模型（如T5、BART）采用完整的编码器-解码器架构，兼顾理解和生成。

Tokenization与词嵌入：从文本到模型数字世界

模型无法直接处理文本。Tokenization是将文本拆解成模型可处理的基本单元（Token）的过程。

分词方法：
- Word-based：按空格分词。简单，但词汇表大，无法处理未登录词（OOV）。
- Character-based：按字符分词。词汇表极小，无OOV问题，但序列过长，语义学习效率低。
- Subword-based（现代主流）：如Byte-Pair Encoding (BPE)、WordPiece、SentencePiece。折中方案，将词拆分为常见子单元（如 “playing” -> “play” + “ing”）。平衡了词汇表大小和语义表示能力。GPT和BERT都使用此类方法。
词嵌入（Word Embedding）：
- Token ID通过一个可训练的嵌入矩阵（Embedding Matrix） 查找，转换为一个稠密向量（例如，维度为hidden_size）。
- 这个向量就是模型理解的“词”的初始数学表示。在训练过程中，这个表示会随着模型学习不断被优化。
位置编码（Positional Encoding）：
- 自注意力机制本身是位置无关的。为了注入序列的顺序信息，需要给每个词元的嵌入向量加上一个位置编码。
- 原始Transformer使用正弦余弦函数。现代模型（如GPT）可能使用可学习的绝对或相对位置编码。

# 一个简化的流程示意
text = "Hello, world!"
# 1. Tokenization (使用BERT tokenizer示例)
token_ids = [101, 7592, 1010, 2088, 999, 102] # [CLS], hello, ,, world, !, [SEP]
# 2. Embedding Lookup
embedding_matrix = nn.Embedding(vocab_size=30522, hidden_size=768)
input_vectors = embedding_matrix(torch.tensor(token_ids)) # [seq_len, 768]
# 3. Add Positional Encoding
# ... (此处省略位置编码具体相加过程)

模型参数量、显存占用与推理性能的工程权衡

这是后端工程师最需要关注的实战环节。模型的“大”直接转化为对计算资源的“渴求”。

1. 参数量估算

对于一个Transformer层，主要参数来自：

自注意力层：Q, K, V投影矩阵和输出投影矩阵。通常为 4 * hidden_size * hidden_size。
前馈网络层：通常是两个线性层，中间有扩展（例如，hidden_size -> 4*hidden_size -> hidden_size）。参数量约为 2 * hidden_size * 4*hidden_size = 8 * hidden_size^2。
层归一化与嵌入层：参数量相对较小。

以 LLaMA-7B 模型 (hidden_size=4096, num_layers=32, num_heads=32) 为例粗略估算：

单层注意力参数：~ 4 * 4096^2 = 67M
单层FFN参数：~ 8 * 4096^2 = 134M
单层总参数量：~ 201M
32层总参数量：32 * 201M ≈ 6.4B
加上词嵌入层（vocab_size=32000）等，总计约7B。

2. 显存占用分析

显存占用主要包含两部分：

模型权重：参数量 * 每个参数的字节数。
- FP32训练： 7B * 4 bytes ≈ 28 GB
- BF16/FP16训练： 7B * 2 bytes ≈ 14 GB （还需额外的梯度、优化器状态，通常再翻2-3倍，因此需要至少42GB+显存）
- INT8量化推理： 7B * 1 byte ≈ 7 GB
推理激活值（Activations）与KV缓存：
- 在自回归生成（如GPT）时，为避免重复计算，需要缓存每个Transformer层的Key和Value向量，供后续生成步骤使用。这就是KV缓存。
- KV缓存大小 = 2 * batch_size * num_layers * seq_len * hidden_size * bytes_per_param
- 对于长序列生成，KV缓存可能成为显存瓶颈。

3. 推理性能考量

延迟（Latency）：受模型计算量（FLOPs）和内存带宽限制。对于自回归模型，生成每个Token都需要完整的前向传播，因此总延迟与生成长度线性相关。
吞吐量（Throughput）：在批量处理（Batch Inference）时，通过并行计算多个样本提高GPU利用率。但受限于显存（特别是KV缓存）。
生产级优化技术：
- 量化：将模型权重从FP16/BF16降至INT8/INT4，大幅减少显存占用和带宽压力，对精度影响可控。
- 算子融合：将多个小算子（如LayerNorm、GeLU、矩阵乘）融合为一个CUDA内核，减少内核启动开销和内存读写。
- 连续批处理（Continuous Batching）：在推理服务中，动态地将不同用户的、处于不同生成阶段的请求组合成一个物理批次，极大提高GPU利用率。类似Java NIO的思想。
- 使用专用推理运行时：如NVIDIA TensorRT， Facebook的vLLM，它们集成了上述大部分优化。

最佳实践与架构建议

不要重复造轮子：对于大多数应用，直接使用Hugging Face transformers库加载预训练模型进行微调或推理是最高效的起点。
理解任务本质选择模型：生成选GPT系，理解选BERT系。对于复杂任务（如翻译、摘要），编码器-解码器模型（T5、BART）可能更合适。
从轻量级模型开始：7B、13B参数的模型在许多任务上已表现出色。在验证价值前，不要盲目追求千亿参数。
推理部署是系统工程：
- 预估显存：模型权重 + KV缓存 + 激活值 + 框架开销。
- 优先考虑量化（使用GPTQ、AWQ、SmoothQuant等后训练量化工具）。
- 对于高并发在线服务，必须采用连续批处理的推理服务器（如vLLM, TensorRT-LLM, TGI）。
监控与评估：除了准确率，务必监控推理服务的P99延迟、吞吐量、GPU利用率和显存使用率。

总结

大语言模型并非黑魔法，其核心是优雅而强大的Transformer架构。自注意力机制赋予了它理解全局上下文的能力，而不同的架构裁剪（GPT的解码器、BERT的编码器）则塑造了其不同的特长。从文本到Token，再到高维向量，模型在一个精心构建的数学空间中学习语言的规律。

然而，作为工程师，我们必须越过精妙的原理，直面参数量膨胀带来的工程挑战。模型规模、显存占用、推理速度构成了一个不可能三角，需要我们在其中做出明智的权衡。理解KV缓存、掌握量化与连续批处理等优化技术，是将LLM从实验品变为稳定生产服务的关键。

希望这篇深度解析能帮助你建立起LLM原理与架构的清晰图景。下一步，你可以尝试用Hugging Face库微调一个小模型，或部署一个开源的推理服务，在实践中深化理解。

参考资料

Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
Radford, A., et al. (2018). Improving Language Understanding by Generative Pre-Training (GPT-1).
Devlin, J., et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
Hugging Face Transformers Documentation: https://huggingface.co/docs/transformers
vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention: https://github.com/vllm-project/vllm
Efficient Memory Management for Large Language Model Serving with PagedAttention. SOSP ‘23.