Training

3.6 Scaling Laws(扩展) • 核心结论(Kaplan et al., 2020): 模型性能(一般用交叉熵损失 LL 表示)与模型参数量 NN、训练 Token 数量 DD 以及总计算量 CC 之间满足幂律关系: L(N,D)L0+(NcN)αN+(DcD)αDL(N, D) \approx L_0 + \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} • 典型指标:αN0.076\alpha_N \approx 0.076αD0.095\alpha_D \approx 0.095 • 计算最优路径:给定总 FLOPs CC,模型规模与数据规模的配比有最优比率。 • 瓶颈:数据稀缺 • 当互联网抓取的公开语料(如 C4/Common Crawl)基本用尽时,继续扩大模型规模(NN)所带来的收益会因为数据质量与多样性不足而快速递减。 • 解决思路:

1.	引入高质量、领域特定语料(多模态、代码、专业文档)
2.	合成数据(Synthetic Data Generation)和数据增强
3.	更高效的算法:微调现有大模型,而不是无限制预训练

3.7 Pre-Train → Post-Train 流程

1.	预训练(Pre-Training)
•	自监督目标:自回归(GPT)或双向 MLM(BERT)
•	大规模数据(C4、OpenWebText、GitHub、图片+文本等)
2.	监督微调(Supervised Fine-Tuning, SFT)
•	基于标注好的指令—响应对(Instruction–Response Pairs),如 FLAN、Alpaca、ChatGPT 数据集
•	目标:最小化交叉熵

LSFT(θ)=E(x,y)Dtlog  pθ(yty<t,x)\mathcal{L}{\text{SFT}}(\theta) = -\mathbb{E}{(x,y)\sim\mathcal{D}}\sum_{t}\log\; p_\theta(y_t\mid y_{<t},x) 3. 偏好微调(Preference Fine-Tuning) • RLHF(Reinforcement Learning from Human Feedback)

1.	收集偏好对:给定同一指令 $x$,生成多条响应 $\{y_i\}$,由人类标注“更好”/“较差”
2.	训练奖励模型(Reward Model, $r_\phi$):

maxϕ(yAyB)logσ(rϕ(x,yA)rϕ(x,yB))\max_\phi \sum_{(y_A\succ y_B)}\log \sigma\bigl(r_\phi(x,y_A)-r_\phi(x,y_B)\bigr) 3. PPO 优化策略模型 πθ\pi_\thetamaxθEyπθ(x)[rϕ(x,y)]βKL[πθπref]\max_\theta \mathbb{E}{y\sim \pi\theta(\cdot\mid x)}\bigl[r_\phi(x,y)\bigr] - \beta\,\mathrm{KL}\bigl[\pi_\theta\,\|\,\pi_{\text{ref}}\bigr] • DPO(Direct Preference Optimization) • 直接以偏好对为监督,优化类似“对比学习”损失,规避 RL 算法的高方差与不稳定。 • 主要优势:训练更加简洁,收敛更快。 4. 进一步优化 • RLAIF:从 AI 而非人类反馈中学习偏好 • 反事实对比:在同一指令上给出相似但细微不同的响应以增强模型鲁棒性

小结 • Scaling Laws 指导我们在模型规模、数据规模和计算预算间做最优分配;但数据稀缺迫使社区转向更高质量或合成数据。 • 训练全流程:

1.	Pre-Train(大规模自监督)
2.	SFT(指令微调)
3.	Preference-Fine-Tuning(RLHF / DPO / RLAIF)
•	Reward Model 本质上是一个打分函数,通过偏好对训练得到,用于指导最终策略模型的参数更新。

以上笔记在原有架构下补充了 Scaling Law 与后训练流程的核心内容,帮助你全面把握模型性能提升的路径与策略。