大模型应用开发技术路线清单

为什么写这篇清单

大模型技术迭代太快，今天流行 MoE，明天又冒出新的注意力机制变体。但作为应用层开发者，我们不需要追每一个论文，而是要搞清楚：哪些技术是必经之路，哪些可以按需选学。

这份清单是我从 2024 年开始接触大模型应用开发以来，逐步梳理出的技术路线图。它不是面面俱到的百科，而是一份优先级排序的执行清单——先学什么、后学什么、什么场景用什么。

零、大模型基础理论（了解原理，更好应用）

核心目标： 理解 Transformer 架构和 LLM 核心概念，知道模型”为什么能工作”。

0.1 Transformer 架构原理

1	`输入 Token → Embedding → Positional Encoding → [Encoder/Decoder] → 输出概率`

核心组件	说明	应用层需要理解的程度
Self-Attention (自注意力)	让每个 Token 关注序列中所有其他 Token，捕捉长距离依赖	⭐⭐⭐⭐⭐ 理解 Q/K/V 含义
Multi-Head Attention	多个注意力头并行，捕捉不同维度的关系	⭐⭐⭐ 了解即可
Feed-Forward Network	两层线性变换 + 激活函数，进行特征变换	⭐⭐ 了解即可
Layer Normalization	稳定训练，加速收敛	⭐⭐ 了解即可
Positional Encoding	为 Token 添加位置信息（绝对/旋转/RoPE）	⭐⭐⭐⭐ 理解 RoPE 对长文本的影响
Residual Connection	残差连接，防止梯度消失	⭐⭐ 了解即可

Self-Attention 核心公式（理解 Q/K/V）：

Attention(Q, K, V) = softmax(Q·K^T / √d_k) · V

Q (Query)：当前 Token "想问什么"
K (Key)：每个 Token "能提供什么"
V (Value)：每个 Token "实际内容"
√d_k：缩放因子，防止点积过大导致 softmax 梯度消失

为什么应用层开发者需要理解 Attention？

理解 上下文窗口 限制的本质（Attention 复杂度 O(n²)）
理解 KV Cache 优化的原理（缓存已计算的 K/V）
理解 长文本模型 为什么贵（注意力计算量随长度平方增长）
理解 Prompt 设计 中”重要信息放首尾”的原因（Primacy/Recency Effect）

0.2 LLM 核心概念

概念	说明	对应用开发的影响
Token	文本的最小单位，模型”看到”的是 Token 不是字符	影响计费、上下文长度计算
Temperature	控制随机性，0=确定性，1=创造性	影响输出质量和一致性
Top-P / Top-K	采样策略，控制候选 Token 范围	与 Temperature 配合使用
Context Window	模型一次能处理的最大 Token 数	决定 RAG 检索量、对话历史长度
System / User / Assistant	对话角色，不同模型支持程度不同	影响 Prompt 设计方式
Stop Sequence	终止生成的标记序列	控制输出边界
Logprobs	输出每个 Token 的概率	用于评估模型置信度

0.3 主流模型架构演进

架构	代表模型	特点
Decoder-Only	GPT-4, Claude, LLaMA, Qwen	当前主流，自回归生成
Encoder-Only	BERT, RoBERTa	双向理解，适合分类/NER
Encoder-Decoder	T5, BART	Seq2Seq，适合翻译/摘要
MoE (混合专家)	Mixtral, DeepSeek-V3	稀疏激活，效率更高
State Space Model	Mamba	线性复杂度，长文本友好

0.4 模型训练三阶段

阶段一：Pre-training（预训练）
├── 海量文本无监督学习
├── 学习语言模式和世界知识
└── 产出 Base Model

阶段二：SFT（监督微调）
├── 指令-回答对训练
├── 学会"听懂人话"
└── 产出 Chat Model

阶段三：RLHF / DPO（对齐）
├── 人类偏好对齐
├── 减少有害输出
└── 产出 Production Model

学习建议： 不需要深入数学细节，但要理解 Attention 机制、Token 概念、Temperature 作用。推荐 3Blue1Brown 的 Transformer 可视化视频。

推荐资源：

3Blue1Brown “Attention in transformers, visually explained”
Jay Alammar “The Illustrated Transformer”
Andrej Karpathy “Let’s build GPT from scratch”

一、基础层：Prompt Engineering（必修）

核心目标： 不改模型、不加数据，只靠”说话方式”把效果拉到最好。

1.1 Prompt 基础技巧

技术点	说明	优先级
Zero-shot / Few-shot	最基础的提示模式，Few-shot 通过示例引导输出格式	⭐⭐⭐⭐⭐
Chain-of-Thought (CoT)	引导模型”一步步想”，显著提升推理任务准确率	⭐⭐⭐⭐⭐
System Prompt 设计	定义角色、约束、输出格式，是所有应用的起点	⭐⭐⭐⭐⭐
结构化输出 (JSON Mode)	强制模型输出 JSON，方便程序解析	⭐⭐⭐⭐
Prompt 模板引擎	LangChain PromptTemplate、Spring AI PromptTemplate	⭐⭐⭐
思维链+结构化输出	CoT 与 JSON 结合，兼顾推理过程与可解析性	⭐⭐⭐⭐

1.2 高级 Prompt 技巧

技术点	说明	优先级
Self-Consistency	多次采样取多数，提升推理一致性	⭐⭐⭐
Tree-of-Thought (ToT)	思维树，探索多条推理路径	⭐⭐⭐
ReAct Prompting	推理+行动交替，Agent 的 Prompt 基础	⭐⭐⭐⭐⭐
Role Playing	角色扮演，提升特定领域表现	⭐⭐⭐
Constraint Prompting	明确约束条件，减少幻觉	⭐⭐⭐⭐
Output Format Control	精确控制输出格式（Markdown/JSON/表格）	⭐⭐⭐⭐

学习建议： 直接上手做一个需求——比如让模型从用户自然语言中提取结构化信息（实体识别、意图分类）。踩坑比看书有用。

推荐资源：

OpenAI Prompt Engineering Guide（官方文档）
Anthropic Prompt Engineering Guide
DeepLearning.AI “ChatGPT Prompt Engineering for Developers”

二、核心层：RAG 检索增强生成（必修）

核心目标： 让模型能”查资料再回答”，解决幻觉和知识过时问题。

2.1 RAG 基础架构

1	`用户问题 → Query 改写 → 向量检索 → 重排序 → 拼接上下文 → LLM 生成回答`

技术点	说明	优先级
文本分块 (Chunking)	固定长度 / 语义分块 / 递归分块，直接影响检索质量	⭐⭐⭐⭐⭐
Embedding 模型选型	OpenAI text-embedding-3、BGE、Jina、M3E	⭐⭐⭐⭐⭐
向量数据库	Milvus、Qdrant、Weaviate、Chroma、pgvector	⭐⭐⭐⭐⭐
相似度检索	余弦相似度、HNSW 索引、Top-K 召回	⭐⭐⭐⭐⭐
Query 改写	HyDE、Multi-Query、Step-back，提升召回率	⭐⭐⭐⭐
重排序 (Rerank)	Cohere Rerank、bge-reranker，精排提升准确率	⭐⭐⭐⭐

2.2 RAG 进阶

技术点	说明	优先级
混合检索 (Hybrid Search)	向量 + BM25 关键词检索，取并集后 Rerank	⭐⭐⭐⭐
GraphRAG	用知识图谱增强检索，适合复杂关系推理	⭐⭐⭐
Agentic RAG	Agent 控制检索策略，动态决定是否检索、检索什么	⭐⭐⭐
多模态 RAG	图片、表格、PDF 的解析与检索	⭐⭐⭐
评估框架	RAGAS、RAG Triad（忠实度/相关性/答案质量）	⭐⭐⭐⭐
父页面检索	检索到子块后回溯到父文档，保留完整上下文	⭐⭐⭐⭐
LLM 重排序	用 LLM 本身做重排序，精度更高但成本也更高	⭐⭐⭐

2.3 RAG 系统优化

技术点	说明	优先级
文档解析优化	Docling、MinerU 等工具优化 PDF/表格解析	⭐⭐⭐⭐
表格序列化	将表格转为 Markdown/JSON，保留结构信息	⭐⭐⭐
动态知识库	根据用户意图动态切换知识库或检索策略	⭐⭐⭐
指令细化	针对开放式问题优化 Prompt 指令	⭐⭐⭐

实战案例：企业 RAG 冠军方案

架构：多路由 + 动态知识库
├── 解析模块：Docling 优化 → 表格序列化 → 内容提取
├── 检索模块：向量检索 → BM25 → LLM 重排序 → 父页面回溯
├── 生成模块：思维链 + 结构化输出 → 指令细化
└── 调参：Embedding 模型选择 → 分块策略 → Top-K 优化

学习建议： 先搭一个最简单的 RAG——PDF 问答系统。用 LangChain + Chroma + OpenAI，能跑通后再逐步替换组件。

三、核心层：Agent 智能体（必修）

核心目标： 让模型能”用工具、做决策、执行多步任务”。

3.1 Agent 理论基础

Agent = LLM + 记忆 + 工具 + 规划

┌─────────────────────────────────────────┐
│                 Agent                    │
│  ┌───────┐  ┌───────┐  ┌───────┐       │
│  │  LLM  │←→│ 记忆  │←→│ 规划  │       │
│  └───┬───┘  └───────┘  └───────┘       │
│      │                                   │
│      ↓                                   │
│  ┌───────┐  ┌───────┐  ┌───────┐       │
│  │ 工具1 │  │ 工具2 │  │ 工具3 │       │
│  └───────┘  └───────┘  └───────┘       │
└─────────────────────────────────────────┘

3.2 Agent 核心技术

技术点	说明	优先级
Function Calling	模型选择调用哪个函数、提取参数，是 Agent 的基石	⭐⭐⭐⭐⭐
ReAct 范式	Reasoning + Acting，模型先推理再行动再观察	⭐⭐⭐⭐⭐
Tool Use	定义工具集（搜索、数据库、API），让模型按需调用	⭐⭐⭐⭐⭐
记忆管理	短期记忆（对话历史）、长期记忆（向量化存储）	⭐⭐⭐⭐
规划能力	任务拆解、子目标生成、计划修正	⭐⭐⭐⭐

3.3 Agent 进阶技术

技术点	说明	优先级
Multi-Agent 多智能体	多个 Agent 协作完成任务（主管-执行者模式）	⭐⭐⭐
Agent 编排框架	LangGraph、CrewAI、AutoGen、OpenAI Swarm	⭐⭐⭐
人机协同 (Human-in-the-Loop)	关键节点需要人类确认，防失控	⭐⭐⭐
工具链设计	MCP (Model Context Protocol)、OpenAPI Tool 标准化	⭐⭐⭐
Agent 可观测性	追踪 Agent 的每一步推理和工具调用	⭐⭐⭐⭐

3.4 Agent 开发框架对比

框架	特点	适用场景
LangChain	生态最全，组件丰富，学习曲线中等	通用 Agent 开发，快速原型
LlamaIndex	专注 RAG 和数据索引，文档处理强	知识密集型应用，文档问答
AutoGen	多智能体协作，对话驱动	复杂任务分解，团队协作模拟
CrewAI	角色扮演，任务委派	需要不同”角色”协作的场景
LangGraph	状态图编排，支持循环和条件分支	复杂工作流，需要精细控制
OpenManus	模块化设计，支持本地运行	企业级 Agent，定制化需求

3.5 Agent 实战案例

案例1：故障诊断 Agent

工具集：
├── 搜索工具：查询知识库、文档
├── 监控工具：查询系统指标、日志
├── 执行工具：重启服务、修改配置
└── 通知工具：发送告警、生成报告

流程：
1. 接收告警 → 2. 分析症状 → 3. 搜索知识库
4. 查询监控 → 5. 定位根因 → 6. 执行修复
7. 验证结果 → 8. 生成报告

案例2：AI 写作助手（OpenManus）

模块设计：
├── Orchestrator：任务编排，分配写作任务
├── Research Agent：收集素材，搜索资料
├── Writer Agent：生成内容，风格控制
├── Editor Agent：润色修改，质量检查
└── Memory：保存写作偏好、历史稿件

流程：
1. 用户输入主题 → 2. 研究 Agent 收集素材
3. 写作 Agent 生成初稿 → 4. 编辑 Agent 润色
5. 用户确认 → 6. 保存到知识库

案例3：Multi-Agent 协作

角色设计：
├── Manager Agent：任务拆解，进度监控
├── Coder Agent：代码编写，单元测试
├── Reviewer Agent：代码审查，安全扫描
├── Tester Agent：集成测试，性能测试
└── Deployer Agent：部署上线，监控告警

协作模式：
Manager → 分配任务 → Coder → 提交代码
                    ↓
           Reviewer ← Code Review
                    ↓
               Tester → 测试通过
                    ↓
            Deployer → 部署上线

学习建议： 做一个能搜索网页 + 查询数据库 + 写文件的 Agent。先用 Function Calling，再用 LangGraph 编排复杂流程。重点理解”模型决定下一步做什么”这个核心范式。

四、增强层：模型微调 Fine-tuning（选修）

核心目标： 当 Prompt + RAG 都不够时，用自有数据训练模型。

4.1 什么时候需要微调？

场景	是否需要微调
通用问答、内容生成	❌ Prompt 就够
特定领域知识问答	⚠️ 先试 RAG
特定风格/格式输出	✅ 微调效果更好
领域术语理解（医疗/法律）	✅ 微调提升显著
低延迟 / 边缘部署	✅ 微调小模型

4.2 微调技术栈

技术点	说明	优先级
SFT (监督微调)	最基础的微调方式，用指令-回答对训练	⭐⭐⭐⭐⭐
LoRA / QLoRA	低秩适配，只训练少量参数，节省显存	⭐⭐⭐⭐⭐
数据集构造	Alpaca 格式、ShareGPT 格式、数据清洗与去重	⭐⭐⭐⭐⭐
DPO / GRPO	偏好对齐，不需要训练 Reward Model	⭐⭐⭐⭐
评估	人工评估 + 自动化 benchmark + LLM-as-Judge	⭐⭐⭐⭐

4.3 微调数据工程

技术点	说明	优先级
数据收集策略	公开数据集 + 业务数据 + 合成数据	⭐⭐⭐⭐⭐
数据清洗核心流程	去重、去噪、格式标准化、质量过滤	⭐⭐⭐⭐⭐
数据标注规范	标注指南、一致性检查、标注工具	⭐⭐⭐⭐
SFT vs RLHF 数据差异	SFT 用指令-回答对，RLHF 用偏好对比	⭐⭐⭐
数据质量评估	Garbage In, Garbage Out 原则	⭐⭐⭐⭐

4.4 工具链

工具	用途
Axolotl	YAML 配置驱动的微调框架，上手快
Unsloth	2-5x 加速 LoRA/QLoRA，显存占用更低
LLaMA-Factory	中文社区活跃，支持多种模型和方法
Hugging Face TRL	官方 RLHF/DPO/GRPO 库
vLLM	微调后模型的高性能推理部署

4.5 模型蒸馏

技术点	说明	优先级
知识蒸馏核心思想	大模型（教师）指导小模型（学生）学习	⭐⭐⭐
蒸馏方法	Logit 蒸馏、特征蒸馏、数据蒸馏	⭐⭐⭐
教师-学生模型选择	根据任务和资源选择合适的模型对	⭐⭐⭐
蒸馏效果评估	精度保持率、推理速度提升	⭐⭐⭐

学习建议： 如果你主要做应用层，微调可以先跳过。但至少要了解 LoRA 的原理和适用场景，面试和架构选型时会用到。

五、基础层：模型推理与部署（必修）

核心目标： 把模型跑起来，控制成本和延迟。

5.1 推理基础

技术点	说明	优先级
API 调用	OpenAI / 硅基流动 / 通义千问，最简单的接入方式	⭐⭐⭐⭐⭐
本地推理	Ollama、llama.cpp、vLLM，私有化部署必备	⭐⭐⭐⭐
量化	GGUF / GPTQ / AWQ，降低显存占用	⭐⭐⭐
模型选型	根据任务复杂度选模型大小（7B vs 72B vs API）	⭐⭐⭐⭐⭐
成本控制	Token 计费优化、缓存、降级策略	⭐⭐⭐⭐
流式输出	SSE / WebSocket，提升用户体验	⭐⭐⭐⭐

5.2 高性能推理引擎

引擎	核心技术	适用场景
vLLM	PagedAttention、Continuous Batching	高吞吐推理，生产环境首选
SGLang	RadixAttention、Radix Tree 缓存	复杂控制流（RAG、CoT、Agent）
Ollama	易用性、本地化部署	开发调试，个人使用
TGI	HuggingFace 官方，稳定可靠	HuggingFace 生态集成

5.3 高并发优化

技术点	说明	优先级
KV Cache	缓存已计算的 Key-Value，避免重复计算	⭐⭐⭐⭐⭐
PagedAttention	像操作系统管理内存一样管理 KV Cache	⭐⭐⭐⭐⭐
Continuous Batching	动态批处理，新请求可随时插入	⭐⭐⭐⭐⭐
Radix Tree 缓存	SGLang 的缓存优化，复用前缀	⭐⭐⭐⭐
Token Healing	修复分词边界问题，提升输出质量	⭐⭐⭐
多租户调度	一个服务多个用户/任务的资源隔离	⭐⭐⭐

5.4 企业级部署

技术点	说明	优先级
GPU 选型	H100/A100/L40S/4090，根据预算和需求选择	⭐⭐⭐⭐
网络架构	RoCE (RDMA) vs TCP/IP，多节点通信	⭐⭐⭐
监控告警	GPU 利用率、显存、吞吐量、延迟监控	⭐⭐⭐⭐
弹性伸缩	根据负载自动扩缩容	⭐⭐⭐

选型参考：

1
2
3

简单任务（分类、提取、格式化）  →  小模型（7B）或便宜 API
中等任务（问答、摘要、翻译）    →  中等模型（14B-72B）或 GPT-4o-mini
复杂任务（推理、规划、创作）    →  大模型（GPT-4o、Claude Opus）

六、应用层：典型应用场景技术栈

6.1 智能客服 / 知识问答

1 2	`技术栈：RAG + Function Calling + 对话记忆关键点：意图识别 → 知识检索 → 回答生成 → 多轮对话管理`

6.2 代码助手 / Code Review

1 2	`技术栈：长上下文模型 + AST 解析 + Diff 分析关键点：代码理解 → 问题定位 → 修复建议 → 安全扫描`

6.3 数据分析 / Text-to-SQL

1
2
3

技术栈：Schema 理解 + SQL 生成 + 结果可视化
关键点：表结构注入 → SQL 生成 → 安全校验 → 结果解读
进阶：SQL Copilot（金融/电商场景）、Auto-EDA、BI 自动化

6.4 内容生成 / 写作助手

1 2	`技术栈：Prompt 模板 + RAG 素材库 + 风格微调关键点：大纲生成 → 素材检索 → 内容填充 → 润色修改`

6.5 自动化工作流 / AI Pipeline

1 2	`技术栈：Agent + 工具链 + 编排框架关键点：任务拆解 → 并行执行 → 结果聚合 → 异常处理`

6.6 视觉与多模态应用

1
2
3

技术栈：VLM (视觉语言模型) + YOLO + 视频理解
场景：图像识别、缺陷检测、文档 OCR、视频分析
关键点：模型选择 → 数据准备 → 训练/微调 → 部署推理

6.7 AI 赋能测试

1
2
3

技术栈：LLM + 测试框架 + CI/CD 集成
场景：用例生成、缺陷定位、回归测试、UI 自动化
关键点：需求理解 → 用例生成 → 执行 → 结果分析

七、工程化层：可观测性与质量保障（必修）

核心目标： 让大模型应用可调试、可监控、可评估。

技术点	说明	优先级
LLM 可观测性	LangSmith、Langfuse、Phoenix，追踪每次调用	⭐⭐⭐⭐⭐
评估框架	自动化评估 + 人工标注 + A/B 测试	⭐⭐⭐⭐
安全防护	Prompt Injection 检测、内容审核、PII 脱敏	⭐⭐⭐⭐
缓存策略	语义缓存、Exact Cache，降低重复调用成本	⭐⭐⭐
降级兜底	模型超时/限流时的降级方案	⭐⭐⭐⭐
Token 管理	上下文窗口控制、历史摘要压缩	⭐⭐⭐⭐

八、低代码平台：快速构建 AI 应用（选修）

核心目标： 不写代码或少写代码，快速搭建 AI 应用。

平台	特点	适用场景
Coze	字节跳动出品，插件丰富，工作流可视化	快速原型，非开发者友好
Dify	开源，可私有化部署，API 友好	企业内部应用，需要定制
FastGPT	开源，专注知识库问答	知识库场景，快速搭建
OpenWebUI	开源，支持多种模型	本地模型调试，个人使用

低代码平台核心能力：

插件/工具集成（搜索、数据库、API）
RAG 知识库管理
工作流编排（Coze Workflow / Dify Workflow）
Agent 调试与发布
API 调用与系统集成

学习建议： 如果需要快速验证想法，低代码平台是好选择。但复杂业务逻辑还是需要代码实现。

九、技术路线优先级总结

按应用层开发者的学习优先级排序：

第零优先级（理解原理）
├── Transformer 架构（Attention 机制、Q/K/V 含义）
├── Token / Temperature / Context Window 概念
└── 模型训练三阶段（Pre-train → SFT → RLHF）

第一优先级（立即学）
├── Prompt Engineering（基础中的基础）
├── API 调用与模型选型（能跑起来）
└── RAG 基础架构（解决 80% 的知识问答需求）

第二优先级（核心能力）
├── Function Calling（Agent 的基石）
├── Agent ReAct 范式（能做复杂任务）
├── 结构化输出（程序能解析）
├── 可观测性（出了问题能排查）
└── 模型推理部署（vLLM/SGLang 基础）

第三优先级（按需选学）
├── 微调 LoRA（当 Prompt + RAG 不够时）
├── Multi-Agent（复杂工作流编排）
├── 高并发优化（生产环境性能调优）
├── 低代码平台（快速原型验证）
└── 多模态（图片/音频/视频处理）

十、推荐技术栈组合

Java 后端开发者（Spring 生态）

框架：Spring AI
向量库：Qdrant / pgvector / Milvus
Embedding：OpenAI / 硅基流动 BGE
推理：API 调用为主，Ollama 本地调试
可观测性：Langfuse（自部署）

Python 后端开发者

框架：LangChain / LlamaIndex
向量库：Chroma（开发）/ Qdrant / Milvus（生产）
Embedding：OpenAI / BGE / Jina
推理：vLLM（自部署）/ API
可观测性：LangSmith / Langfuse

快速原型开发者

低代码：Coze / Dify
模型：API 调用为主
部署：Docker Compose
监控：平台自带

写在最后

大模型应用开发的核心不是”会用多少框架”，而是：

理解模型的能力边界——知道什么能做、什么做不到
选对技术组合——不是越复杂越好，而是够用就好
持续评估效果——上线后盯着指标，不断迭代

技术在变，但工程思维不变：先跑通 MVP，再逐步优化。

最后更新：2026-05-09

AI 后端学习

#大模型 #LLM #RAG #Agent #技术路线 #AI 工程化 #Transformer

大模型应用开发技术路线清单

https://msb8080.github.io/blog/2026/05/09/大模型应用开发技术路线清单/

作者

minshuaibo

发布于

2026年5月9日

许可协议

Ceph 分布式存储系统：架构、实践与竞品分析上一篇

我的博客搭建复盘：AI Composer 技术猿的 Hexo 实践与长期写作规划（2026-04-30）下一篇