Other
分布式训练技术
数据并行
- 挑战:准确有效地收集不同模型的梯度。
- 异步SGD:每个GPU计算梯度后上传,服务器更新模型后,各GPU下载新模型。
- 同步SGD:所有梯度收集完毕后,更新所有GPU。
模型并行
- 将一个网络分布到多个机器上计算。
流水线并行
- 将前向传播和反向传播分布到不同机器上,采用流水线方式运行。
AutoML核心要点
架构搜索
- 搜索空间:确定搜索的范围。
- 性能评估策略:如何评价模型性能。
- 搜索策略:模型的离线评估。
基线选择
- Random Baseline:随机预测数据,与模型性能比较。
- Simple Heuristic:与简单预测结果比较。
- ZeroRule Baseline:仅预测最常见结果。
- Human Baseline:与人类表现比较。
模型校准
- Platt Scaling Calibrate:调整模型预测以更接近实际情况。