Model

机器学习开发与训练笔记

今天,我们将讨论机器学习中的开发和训练部分,主要关注如何评价模型的性能以及如何选择合适的模型。

模型评价与选择

  • 模型选择:在选择模型时,避免直接采用最新的模型。最新的模型并不总是最佳选择,因为它们可能只是基于特定数据集的初步研究成果,尚未经过广泛验证,可能不适用于真实世界的场景。

  • 从简到难:建议从简单的模型开始,简单模型开发周期短,易于调试,有助于快速验证想法。复杂模型虽然可能性能更好,但开发成本高,调试困难。

  • 避免偏见:在模型选择过程中应避免个人偏见,应通过实验来测试不同的特征和参数,找到最适合当前问题的模型配置。

  • 数据和时间的重要性:当前模型的性能好不代表未来也会如此,模型性能与数据相关联,需要定期评估和更新模型。

重要概念和建议

  • 权衡(Trade-offs):理解模型中的权衡,如假阳性(False Positive)和假阴性(False Negative),这对模型评估非常关键。

  • 模型假设:了解和理解模型假设的重要性。例如,大多数模型假设输入X和输出Y之间存在可预测的关系;独立同分布假设认为样本之间相互独立;还有一些模型假设输入输出间有特定的函数关系,以及数据遵循特定的分布(如正态分布)。

  • 监督学习假设:监督学习方法假设存在一个函数集合,能将输入转换为输出,并且相似的输入会产生相似的输出。此外,一些模型(如线性回归分类器)假设决策边界是线性的,许多模型假设数据是正态分布的。


Children
  1. Ensemble
  2. Experiment
  3. Other