Other

分布式训练技术

数据并行

  • 挑战:准确有效地收集不同模型的梯度。
  • 异步SGD:每个GPU计算梯度后上传,服务器更新模型后,各GPU下载新模型。
  • 同步SGD:所有梯度收集完毕后,更新所有GPU。

模型并行

  • 将一个网络分布到多个机器上计算。

流水线并行

  • 将前向传播和反向传播分布到不同机器上,采用流水线方式运行。

AutoML核心要点

架构搜索

  • 搜索空间:确定搜索的范围。
  • 性能评估策略:如何评价模型性能。
  • 搜索策略:模型的离线评估。

基线选择

  • Random Baseline:随机预测数据,与模型性能比较。
  • Simple Heuristic:与简单预测结果比较。
  • ZeroRule Baseline:仅预测最常见结果。
  • Human Baseline:与人类表现比较。

模型校准

  • Platt Scaling Calibrate:调整模型预测以更接近实际情况。