LLM

大语言模型是一种基于深度学习技术的自然语言处理模型，它能够学习和生成自然语言文本。大语言模型通常由多层神经网络组成，可以根据历史文本数据预测下一个单词或一段文本的概率。大语言模型的应用包括语言翻译、问答系统、自动摘要、语音识别等领域。其中最著名的大语言模型是Google的BERT、OpenAI的GPT-3等。大语言模型的优点是可以在大规模数据上进行训练，支持生成高质量的自然语言文本，但是也存在一些问题，比如需要大量的计算资源和数据、对于少见的单词或短语容易出现错误等。

AI 技术栈概览 • 应用开发层：如何使用大模型（如 GPT、PaLM 等），构建 Agent，聚焦 Prompt Engineering 与 Context Engineering。 • 模型开发层：涉及模型的训练、微调、评估及部署。 • 基础设施层：包括 Serving Infra、数据管理（Data Ops）与模型运行监控（Monitoring）。

⸻

应用开发层（Application Development）
1. 大模型使用 • 选型：接口调用 vs. 本地部署 • 性能与成本权衡
2. Agent 设计 • 单任务 Agent vs. 多任务 Agent • 模块化思路：Planner → Executor → Verifier
3. Prompt Engineering • 技术手段：零样本、少样本、链式思维（Chain-of-Thought） • 动态上下文筛选与检索增强（Retrieval-Augmented Generation）
4. Context Engineering • 上下文窗口管理 • 长文档检索与摘要拼接

⸻

模型开发层（Model Development）

3.1 数据来源与处理 • Common Crawl / C4：大规模互联网网页抓取数据集，涵盖多语种 • Domain-Specific Corpora：如医学（PubMed）、法律（CourtListener）、金融（SEC filings）等 • 开源语料：Wikipedia、OpenWebText、The Pile • 数据清洗与预处理：去重、过滤低质量、子词切分（BPE/WordPiece）

3.2 模型架构（Transformer） • 核心思想：自注意力（Self-Attention） • Attention 公式（LaTeX）： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\Bigl(\frac{QK^\top}{\sqrt{d_k}}\Bigr)\,V $ • Q, K, V 分别为查询（Query）、键（Key）、值（Value）矩阵 • $\sqrt{d_k}$ 为缩放因子 • 多头注意力（Multi-Head Attention）：并行多组 Q,K,V，再拼接投影 • 位置编码（Positional Encoding）：Sin/Cos 或可学习向量 • 前馈网络：两层线性层 + 激活（GELU/ReLU） • 残差连接 & LayerNorm

3.3 模型训练与微调

1.	预训练（Pre-Training）
•	自监督目标：Masked Language Modeling（如 BERT）／自回归（如 GPT）
•	大规模分布式训练：数据并行 + 模型并行
2.	微调（Fine-Tuning）
•	全量微调 vs. 参数高效方法（PEFT）
•	LoRA、Adapter、Prefix-Tuning
•	强化学习 + 人类反馈（RLHF）

3.4 模型评估 • 自动化指标：Perplexity、BLEU、ROUGE、F1 • 基准测试：GLUE、SuperGLUE、MMLU、SQuAD • 人类评估：流畅度、相关性、安全性

3.5 模型服务（Serving） • 推理框架：TensorFlow Serving、TorchServe、NVIDIA Triton • 优化手段：量化（Quantization）、剪枝（Pruning）、蒸馏（Distillation）、ONNX • 高可用设计：负载均衡、水平扩展、冷/热启动

⸻

基础设施层（Infra）
1. Serving Infra • Kubernetes + Helm 部署 • 服务网格（Istio）
2. 数据管理（Data Ops） • 版本控制：DVC、Git-LFS • 元数据管理：MLflow、Weights & Biases
3. 监控与告警 • 指标收集：Prometheus • 可视化：Grafana • 日志与追踪：ELK Stack、Jaeger

Children