为什么写这篇清单
大模型技术迭代太快,今天流行 MoE,明天又冒出新的注意力机制变体。但作为应用层开发者,我们不需要追每一个论文,而是要搞清楚:哪些技术是必经之路,哪些可以按需选学。
这份清单是我从 2024 年开始接触大模型应用开发以来,逐步梳理出的技术路线图。它不是面面俱到的百科,而是一份优先级排序的执行清单——先学什么、后学什么、什么场景用什么。
零、大模型基础理论(了解原理,更好应用)
核心目标: 理解 Transformer 架构和 LLM 核心概念,知道模型”为什么能工作”。
1
| 输入 Token → Embedding → Positional Encoding → [Encoder/Decoder] → 输出概率
|
| 核心组件 |
说明 |
应用层需要理解的程度 |
| Self-Attention (自注意力) |
让每个 Token 关注序列中所有其他 Token,捕捉长距离依赖 |
⭐⭐⭐⭐⭐ 理解 Q/K/V 含义 |
| Multi-Head Attention |
多个注意力头并行,捕捉不同维度的关系 |
⭐⭐⭐ 了解即可 |
| Feed-Forward Network |
两层线性变换 + 激活函数,进行特征变换 |
⭐⭐ 了解即可 |
| Layer Normalization |
稳定训练,加速收敛 |
⭐⭐ 了解即可 |
| Positional Encoding |
为 Token 添加位置信息(绝对/旋转/RoPE) |
⭐⭐⭐⭐ 理解 RoPE 对长文本的影响 |
| Residual Connection |
残差连接,防止梯度消失 |
⭐⭐ 了解即可 |
Self-Attention 核心公式(理解 Q/K/V):
1 2 3 4 5 6
| Attention(Q, K, V) = softmax(Q·K^T / √d_k) · V
Q (Query):当前 Token "想问什么" K (Key):每个 Token "能提供什么" V (Value):每个 Token "实际内容" √d_k:缩放因子,防止点积过大导致 softmax 梯度消失
|
为什么应用层开发者需要理解 Attention?
- 理解 上下文窗口 限制的本质(Attention 复杂度 O(n²))
- 理解 KV Cache 优化的原理(缓存已计算的 K/V)
- 理解 长文本模型 为什么贵(注意力计算量随长度平方增长)
- 理解 Prompt 设计 中”重要信息放首尾”的原因(Primacy/Recency Effect)
0.2 LLM 核心概念
| 概念 |
说明 |
对应用开发的影响 |
| Token |
文本的最小单位,模型”看到”的是 Token 不是字符 |
影响计费、上下文长度计算 |
| Temperature |
控制随机性,0=确定性,1=创造性 |
影响输出质量和一致性 |
| Top-P / Top-K |
采样策略,控制候选 Token 范围 |
与 Temperature 配合使用 |
| Context Window |
模型一次能处理的最大 Token 数 |
决定 RAG 检索量、对话历史长度 |
| System / User / Assistant |
对话角色,不同模型支持程度不同 |
影响 Prompt 设计方式 |
| Stop Sequence |
终止生成的标记序列 |
控制输出边界 |
| Logprobs |
输出每个 Token 的概率 |
用于评估模型置信度 |
0.3 主流模型架构演进
| 架构 |
代表模型 |
特点 |
| Decoder-Only |
GPT-4, Claude, LLaMA, Qwen |
当前主流,自回归生成 |
| Encoder-Only |
BERT, RoBERTa |
双向理解,适合分类/NER |
| Encoder-Decoder |
T5, BART |
Seq2Seq,适合翻译/摘要 |
| MoE (混合专家) |
Mixtral, DeepSeek-V3 |
稀疏激活,效率更高 |
| State Space Model |
Mamba |
线性复杂度,长文本友好 |
0.4 模型训练三阶段
1 2 3 4 5 6 7 8 9 10 11 12 13 14
| 阶段一:Pre-training(预训练) ├── 海量文本无监督学习 ├── 学习语言模式和世界知识 └── 产出 Base Model
阶段二:SFT(监督微调) ├── 指令-回答对训练 ├── 学会"听懂人话" └── 产出 Chat Model
阶段三:RLHF / DPO(对齐) ├── 人类偏好对齐 ├── 减少有害输出 └── 产出 Production Model
|
学习建议: 不需要深入数学细节,但要理解 Attention 机制、Token 概念、Temperature 作用。推荐 3Blue1Brown 的 Transformer 可视化视频。
推荐资源:
- 3Blue1Brown “Attention in transformers, visually explained”
- Jay Alammar “The Illustrated Transformer”
- Andrej Karpathy “Let’s build GPT from scratch”
一、基础层:Prompt Engineering(必修)
核心目标: 不改模型、不加数据,只靠”说话方式”把效果拉到最好。
1.1 Prompt 基础技巧
| 技术点 |
说明 |
优先级 |
| Zero-shot / Few-shot |
最基础的提示模式,Few-shot 通过示例引导输出格式 |
⭐⭐⭐⭐⭐ |
| Chain-of-Thought (CoT) |
引导模型”一步步想”,显著提升推理任务准确率 |
⭐⭐⭐⭐⭐ |
| System Prompt 设计 |
定义角色、约束、输出格式,是所有应用的起点 |
⭐⭐⭐⭐⭐ |
| 结构化输出 (JSON Mode) |
强制模型输出 JSON,方便程序解析 |
⭐⭐⭐⭐ |
| Prompt 模板引擎 |
LangChain PromptTemplate、Spring AI PromptTemplate |
⭐⭐⭐ |
| 思维链+结构化输出 |
CoT 与 JSON 结合,兼顾推理过程与可解析性 |
⭐⭐⭐⭐ |
1.2 高级 Prompt 技巧
| 技术点 |
说明 |
优先级 |
| Self-Consistency |
多次采样取多数,提升推理一致性 |
⭐⭐⭐ |
| Tree-of-Thought (ToT) |
思维树,探索多条推理路径 |
⭐⭐⭐ |
| ReAct Prompting |
推理+行动交替,Agent 的 Prompt 基础 |
⭐⭐⭐⭐⭐ |
| Role Playing |
角色扮演,提升特定领域表现 |
⭐⭐⭐ |
| Constraint Prompting |
明确约束条件,减少幻觉 |
⭐⭐⭐⭐ |
| Output Format Control |
精确控制输出格式(Markdown/JSON/表格) |
⭐⭐⭐⭐ |
学习建议: 直接上手做一个需求——比如让模型从用户自然语言中提取结构化信息(实体识别、意图分类)。踩坑比看书有用。
推荐资源:
- OpenAI Prompt Engineering Guide(官方文档)
- Anthropic Prompt Engineering Guide
- DeepLearning.AI “ChatGPT Prompt Engineering for Developers”
二、核心层:RAG 检索增强生成(必修)
核心目标: 让模型能”查资料再回答”,解决幻觉和知识过时问题。
2.1 RAG 基础架构
1
| 用户问题 → Query 改写 → 向量检索 → 重排序 → 拼接上下文 → LLM 生成回答
|
| 技术点 |
说明 |
优先级 |
| 文本分块 (Chunking) |
固定长度 / 语义分块 / 递归分块,直接影响检索质量 |
⭐⭐⭐⭐⭐ |
| Embedding 模型选型 |
OpenAI text-embedding-3、BGE、Jina、M3E |
⭐⭐⭐⭐⭐ |
| 向量数据库 |
Milvus、Qdrant、Weaviate、Chroma、pgvector |
⭐⭐⭐⭐⭐ |
| 相似度检索 |
余弦相似度、HNSW 索引、Top-K 召回 |
⭐⭐⭐⭐⭐ |
| Query 改写 |
HyDE、Multi-Query、Step-back,提升召回率 |
⭐⭐⭐⭐ |
| 重排序 (Rerank) |
Cohere Rerank、bge-reranker,精排提升准确率 |
⭐⭐⭐⭐ |
2.2 RAG 进阶
| 技术点 |
说明 |
优先级 |
| 混合检索 (Hybrid Search) |
向量 + BM25 关键词检索,取并集后 Rerank |
⭐⭐⭐⭐ |
| GraphRAG |
用知识图谱增强检索,适合复杂关系推理 |
⭐⭐⭐ |
| Agentic RAG |
Agent 控制检索策略,动态决定是否检索、检索什么 |
⭐⭐⭐ |
| 多模态 RAG |
图片、表格、PDF 的解析与检索 |
⭐⭐⭐ |
| 评估框架 |
RAGAS、RAG Triad(忠实度/相关性/答案质量) |
⭐⭐⭐⭐ |
| 父页面检索 |
检索到子块后回溯到父文档,保留完整上下文 |
⭐⭐⭐⭐ |
| LLM 重排序 |
用 LLM 本身做重排序,精度更高但成本也更高 |
⭐⭐⭐ |
2.3 RAG 系统优化
| 技术点 |
说明 |
优先级 |
| 文档解析优化 |
Docling、MinerU 等工具优化 PDF/表格解析 |
⭐⭐⭐⭐ |
| 表格序列化 |
将表格转为 Markdown/JSON,保留结构信息 |
⭐⭐⭐ |
| 动态知识库 |
根据用户意图动态切换知识库或检索策略 |
⭐⭐⭐ |
| 指令细化 |
针对开放式问题优化 Prompt 指令 |
⭐⭐⭐ |
实战案例:企业 RAG 冠军方案
1 2 3 4 5
| 架构:多路由 + 动态知识库 ├── 解析模块:Docling 优化 → 表格序列化 → 内容提取 ├── 检索模块:向量检索 → BM25 → LLM 重排序 → 父页面回溯 ├── 生成模块:思维链 + 结构化输出 → 指令细化 └── 调参:Embedding 模型选择 → 分块策略 → Top-K 优化
|
学习建议: 先搭一个最简单的 RAG——PDF 问答系统。用 LangChain + Chroma + OpenAI,能跑通后再逐步替换组件。
三、核心层:Agent 智能体(必修)
核心目标: 让模型能”用工具、做决策、执行多步任务”。
3.1 Agent 理论基础
Agent = LLM + 记忆 + 工具 + 规划
1 2 3 4 5 6 7 8 9 10 11
| ┌─────────────────────────────────────────┐ │ Agent │ │ ┌───────┐ ┌───────┐ ┌───────┐ │ │ │ LLM │←→│ 记忆 │←→│ 规划 │ │ │ └───┬───┘ └───────┘ └───────┘ │ │ │ │ │ ↓ │ │ ┌───────┐ ┌───────┐ ┌───────┐ │ │ │ 工具1 │ │ 工具2 │ │ 工具3 │ │ │ └───────┘ └───────┘ └───────┘ │ └─────────────────────────────────────────┘
|
3.2 Agent 核心技术
| 技术点 |
说明 |
优先级 |
| Function Calling |
模型选择调用哪个函数、提取参数,是 Agent 的基石 |
⭐⭐⭐⭐⭐ |
| ReAct 范式 |
Reasoning + Acting,模型先推理再行动再观察 |
⭐⭐⭐⭐⭐ |
| Tool Use |
定义工具集(搜索、数据库、API),让模型按需调用 |
⭐⭐⭐⭐⭐ |
| 记忆管理 |
短期记忆(对话历史)、长期记忆(向量化存储) |
⭐⭐⭐⭐ |
| 规划能力 |
任务拆解、子目标生成、计划修正 |
⭐⭐⭐⭐ |
3.3 Agent 进阶技术
| 技术点 |
说明 |
优先级 |
| Multi-Agent 多智能体 |
多个 Agent 协作完成任务(主管-执行者模式) |
⭐⭐⭐ |
| Agent 编排框架 |
LangGraph、CrewAI、AutoGen、OpenAI Swarm |
⭐⭐⭐ |
| 人机协同 (Human-in-the-Loop) |
关键节点需要人类确认,防失控 |
⭐⭐⭐ |
| 工具链设计 |
MCP (Model Context Protocol)、OpenAPI Tool 标准化 |
⭐⭐⭐ |
| Agent 可观测性 |
追踪 Agent 的每一步推理和工具调用 |
⭐⭐⭐⭐ |
3.4 Agent 开发框架对比
| 框架 |
特点 |
适用场景 |
| LangChain |
生态最全,组件丰富,学习曲线中等 |
通用 Agent 开发,快速原型 |
| LlamaIndex |
专注 RAG 和数据索引,文档处理强 |
知识密集型应用,文档问答 |
| AutoGen |
多智能体协作,对话驱动 |
复杂任务分解,团队协作模拟 |
| CrewAI |
角色扮演,任务委派 |
需要不同”角色”协作的场景 |
| LangGraph |
状态图编排,支持循环和条件分支 |
复杂工作流,需要精细控制 |
| OpenManus |
模块化设计,支持本地运行 |
企业级 Agent,定制化需求 |
3.5 Agent 实战案例
案例1:故障诊断 Agent
1 2 3 4 5 6 7 8 9 10
| 工具集: ├── 搜索工具:查询知识库、文档 ├── 监控工具:查询系统指标、日志 ├── 执行工具:重启服务、修改配置 └── 通知工具:发送告警、生成报告
流程: 1. 接收告警 → 2. 分析症状 → 3. 搜索知识库 4. 查询监控 → 5. 定位根因 → 6. 执行修复 7. 验证结果 → 8. 生成报告
|
案例2:AI 写作助手(OpenManus)
1 2 3 4 5 6 7 8 9 10 11
| 模块设计: ├── Orchestrator:任务编排,分配写作任务 ├── Research Agent:收集素材,搜索资料 ├── Writer Agent:生成内容,风格控制 ├── Editor Agent:润色修改,质量检查 └── Memory:保存写作偏好、历史稿件
流程: 1. 用户输入主题 → 2. 研究 Agent 收集素材 3. 写作 Agent 生成初稿 → 4. 编辑 Agent 润色 5. 用户确认 → 6. 保存到知识库
|
案例3:Multi-Agent 协作
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
| 角色设计: ├── Manager Agent:任务拆解,进度监控 ├── Coder Agent:代码编写,单元测试 ├── Reviewer Agent:代码审查,安全扫描 ├── Tester Agent:集成测试,性能测试 └── Deployer Agent:部署上线,监控告警
协作模式: Manager → 分配任务 → Coder → 提交代码 ↓ Reviewer ← Code Review ↓ Tester → 测试通过 ↓ Deployer → 部署上线
|
学习建议: 做一个能搜索网页 + 查询数据库 + 写文件的 Agent。先用 Function Calling,再用 LangGraph 编排复杂流程。重点理解”模型决定下一步做什么”这个核心范式。
四、增强层:模型微调 Fine-tuning(选修)
核心目标: 当 Prompt + RAG 都不够时,用自有数据训练模型。
4.1 什么时候需要微调?
| 场景 |
是否需要微调 |
| 通用问答、内容生成 |
❌ Prompt 就够 |
| 特定领域知识问答 |
⚠️ 先试 RAG |
| 特定风格/格式输出 |
✅ 微调效果更好 |
| 领域术语理解(医疗/法律) |
✅ 微调提升显著 |
| 低延迟 / 边缘部署 |
✅ 微调小模型 |
4.2 微调技术栈
| 技术点 |
说明 |
优先级 |
| SFT (监督微调) |
最基础的微调方式,用指令-回答对训练 |
⭐⭐⭐⭐⭐ |
| LoRA / QLoRA |
低秩适配,只训练少量参数,节省显存 |
⭐⭐⭐⭐⭐ |
| 数据集构造 |
Alpaca 格式、ShareGPT 格式、数据清洗与去重 |
⭐⭐⭐⭐⭐ |
| DPO / GRPO |
偏好对齐,不需要训练 Reward Model |
⭐⭐⭐⭐ |
| 评估 |
人工评估 + 自动化 benchmark + LLM-as-Judge |
⭐⭐⭐⭐ |
4.3 微调数据工程
| 技术点 |
说明 |
优先级 |
| 数据收集策略 |
公开数据集 + 业务数据 + 合成数据 |
⭐⭐⭐⭐⭐ |
| 数据清洗核心流程 |
去重、去噪、格式标准化、质量过滤 |
⭐⭐⭐⭐⭐ |
| 数据标注规范 |
标注指南、一致性检查、标注工具 |
⭐⭐⭐⭐ |
| SFT vs RLHF 数据差异 |
SFT 用指令-回答对,RLHF 用偏好对比 |
⭐⭐⭐ |
| 数据质量评估 |
Garbage In, Garbage Out 原则 |
⭐⭐⭐⭐ |
4.4 工具链
| 工具 |
用途 |
| Axolotl |
YAML 配置驱动的微调框架,上手快 |
| Unsloth |
2-5x 加速 LoRA/QLoRA,显存占用更低 |
| LLaMA-Factory |
中文社区活跃,支持多种模型和方法 |
| Hugging Face TRL |
官方 RLHF/DPO/GRPO 库 |
| vLLM |
微调后模型的高性能推理部署 |
4.5 模型蒸馏
| 技术点 |
说明 |
优先级 |
| 知识蒸馏核心思想 |
大模型(教师)指导小模型(学生)学习 |
⭐⭐⭐ |
| 蒸馏方法 |
Logit 蒸馏、特征蒸馏、数据蒸馏 |
⭐⭐⭐ |
| 教师-学生模型选择 |
根据任务和资源选择合适的模型对 |
⭐⭐⭐ |
| 蒸馏效果评估 |
精度保持率、推理速度提升 |
⭐⭐⭐ |
学习建议: 如果你主要做应用层,微调可以先跳过。但至少要了解 LoRA 的原理和适用场景,面试和架构选型时会用到。
五、基础层:模型推理与部署(必修)
核心目标: 把模型跑起来,控制成本和延迟。
5.1 推理基础
| 技术点 |
说明 |
优先级 |
| API 调用 |
OpenAI / 硅基流动 / 通义千问,最简单的接入方式 |
⭐⭐⭐⭐⭐ |
| 本地推理 |
Ollama、llama.cpp、vLLM,私有化部署必备 |
⭐⭐⭐⭐ |
| 量化 |
GGUF / GPTQ / AWQ,降低显存占用 |
⭐⭐⭐ |
| 模型选型 |
根据任务复杂度选模型大小(7B vs 72B vs API) |
⭐⭐⭐⭐⭐ |
| 成本控制 |
Token 计费优化、缓存、降级策略 |
⭐⭐⭐⭐ |
| 流式输出 |
SSE / WebSocket,提升用户体验 |
⭐⭐⭐⭐ |
5.2 高性能推理引擎
| 引擎 |
核心技术 |
适用场景 |
| vLLM |
PagedAttention、Continuous Batching |
高吞吐推理,生产环境首选 |
| SGLang |
RadixAttention、Radix Tree 缓存 |
复杂控制流(RAG、CoT、Agent) |
| Ollama |
易用性、本地化部署 |
开发调试,个人使用 |
| TGI |
HuggingFace 官方,稳定可靠 |
HuggingFace 生态集成 |
5.3 高并发优化
| 技术点 |
说明 |
优先级 |
| KV Cache |
缓存已计算的 Key-Value,避免重复计算 |
⭐⭐⭐⭐⭐ |
| PagedAttention |
像操作系统管理内存一样管理 KV Cache |
⭐⭐⭐⭐⭐ |
| Continuous Batching |
动态批处理,新请求可随时插入 |
⭐⭐⭐⭐⭐ |
| Radix Tree 缓存 |
SGLang 的缓存优化,复用前缀 |
⭐⭐⭐⭐ |
| Token Healing |
修复分词边界问题,提升输出质量 |
⭐⭐⭐ |
| 多租户调度 |
一个服务多个用户/任务的资源隔离 |
⭐⭐⭐ |
5.4 企业级部署
| 技术点 |
说明 |
优先级 |
| GPU 选型 |
H100/A100/L40S/4090,根据预算和需求选择 |
⭐⭐⭐⭐ |
| 网络架构 |
RoCE (RDMA) vs TCP/IP,多节点通信 |
⭐⭐⭐ |
| 监控告警 |
GPU 利用率、显存、吞吐量、延迟监控 |
⭐⭐⭐⭐ |
| 弹性伸缩 |
根据负载自动扩缩容 |
⭐⭐⭐ |
选型参考:
1 2 3
| 简单任务(分类、提取、格式化) → 小模型(7B)或便宜 API 中等任务(问答、摘要、翻译) → 中等模型(14B-72B)或 GPT-4o-mini 复杂任务(推理、规划、创作) → 大模型(GPT-4o、Claude Opus)
|
六、应用层:典型应用场景技术栈
6.1 智能客服 / 知识问答
1 2
| 技术栈:RAG + Function Calling + 对话记忆 关键点:意图识别 → 知识检索 → 回答生成 → 多轮对话管理
|
6.2 代码助手 / Code Review
1 2
| 技术栈:长上下文模型 + AST 解析 + Diff 分析 关键点:代码理解 → 问题定位 → 修复建议 → 安全扫描
|
6.3 数据分析 / Text-to-SQL
1 2 3
| 技术栈:Schema 理解 + SQL 生成 + 结果可视化 关键点:表结构注入 → SQL 生成 → 安全校验 → 结果解读 进阶:SQL Copilot(金融/电商场景)、Auto-EDA、BI 自动化
|
6.4 内容生成 / 写作助手
1 2
| 技术栈:Prompt 模板 + RAG 素材库 + 风格微调 关键点:大纲生成 → 素材检索 → 内容填充 → 润色修改
|
6.5 自动化工作流 / AI Pipeline
1 2
| 技术栈:Agent + 工具链 + 编排框架 关键点:任务拆解 → 并行执行 → 结果聚合 → 异常处理
|
6.6 视觉与多模态应用
1 2 3
| 技术栈:VLM (视觉语言模型) + YOLO + 视频理解 场景:图像识别、缺陷检测、文档 OCR、视频分析 关键点:模型选择 → 数据准备 → 训练/微调 → 部署推理
|
6.7 AI 赋能测试
1 2 3
| 技术栈:LLM + 测试框架 + CI/CD 集成 场景:用例生成、缺陷定位、回归测试、UI 自动化 关键点:需求理解 → 用例生成 → 执行 → 结果分析
|
七、工程化层:可观测性与质量保障(必修)
核心目标: 让大模型应用可调试、可监控、可评估。
| 技术点 |
说明 |
优先级 |
| LLM 可观测性 |
LangSmith、Langfuse、Phoenix,追踪每次调用 |
⭐⭐⭐⭐⭐ |
| 评估框架 |
自动化评估 + 人工标注 + A/B 测试 |
⭐⭐⭐⭐ |
| 安全防护 |
Prompt Injection 检测、内容审核、PII 脱敏 |
⭐⭐⭐⭐ |
| 缓存策略 |
语义缓存、Exact Cache,降低重复调用成本 |
⭐⭐⭐ |
| 降级兜底 |
模型超时/限流时的降级方案 |
⭐⭐⭐⭐ |
| Token 管理 |
上下文窗口控制、历史摘要压缩 |
⭐⭐⭐⭐ |
八、低代码平台:快速构建 AI 应用(选修)
核心目标: 不写代码或少写代码,快速搭建 AI 应用。
| 平台 |
特点 |
适用场景 |
| Coze |
字节跳动出品,插件丰富,工作流可视化 |
快速原型,非开发者友好 |
| Dify |
开源,可私有化部署,API 友好 |
企业内部应用,需要定制 |
| FastGPT |
开源,专注知识库问答 |
知识库场景,快速搭建 |
| OpenWebUI |
开源,支持多种模型 |
本地模型调试,个人使用 |
低代码平台核心能力:
- 插件/工具集成(搜索、数据库、API)
- RAG 知识库管理
- 工作流编排(Coze Workflow / Dify Workflow)
- Agent 调试与发布
- API 调用与系统集成
学习建议: 如果需要快速验证想法,低代码平台是好选择。但复杂业务逻辑还是需要代码实现。
九、技术路线优先级总结
按应用层开发者的学习优先级排序:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
| 第零优先级(理解原理) ├── Transformer 架构(Attention 机制、Q/K/V 含义) ├── Token / Temperature / Context Window 概念 └── 模型训练三阶段(Pre-train → SFT → RLHF)
第一优先级(立即学) ├── Prompt Engineering(基础中的基础) ├── API 调用与模型选型(能跑起来) └── RAG 基础架构(解决 80% 的知识问答需求)
第二优先级(核心能力) ├── Function Calling(Agent 的基石) ├── Agent ReAct 范式(能做复杂任务) ├── 结构化输出(程序能解析) ├── 可观测性(出了问题能排查) └── 模型推理部署(vLLM/SGLang 基础)
第三优先级(按需选学) ├── 微调 LoRA(当 Prompt + RAG 不够时) ├── Multi-Agent(复杂工作流编排) ├── 高并发优化(生产环境性能调优) ├── 低代码平台(快速原型验证) └── 多模态(图片/音频/视频处理)
|
十、推荐技术栈组合
Java 后端开发者(Spring 生态)
1 2 3 4 5
| 框架:Spring AI 向量库:Qdrant / pgvector / Milvus Embedding:OpenAI / 硅基流动 BGE 推理:API 调用为主,Ollama 本地调试 可观测性:Langfuse(自部署)
|
Python 后端开发者
1 2 3 4 5
| 框架:LangChain / LlamaIndex 向量库:Chroma(开发)/ Qdrant / Milvus(生产) Embedding:OpenAI / BGE / Jina 推理:vLLM(自部署)/ API 可观测性:LangSmith / Langfuse
|
快速原型开发者
1 2 3 4
| 低代码:Coze / Dify 模型:API 调用为主 部署:Docker Compose 监控:平台自带
|
写在最后
大模型应用开发的核心不是”会用多少框架”,而是:
- 理解模型的能力边界——知道什么能做、什么做不到
- 选对技术组合——不是越复杂越好,而是够用就好
- 持续评估效果——上线后盯着指标,不断迭代
技术在变,但工程思维不变:先跑通 MVP,再逐步优化。
最后更新:2026-05-09