Model
机器学习开发与训练笔记
今天,我们将讨论机器学习中的开发和训练部分,主要关注如何评价模型的性能以及如何选择合适的模型。
模型评价与选择
-
模型选择:在选择模型时,避免直接采用最新的模型。最新的模型并不总是最佳选择,因为它们可能只是基于特定数据集的初步研究成果,尚未经过广泛验证,可能不适用于真实世界的场景。
-
从简到难:建议从简单的模型开始,简单模型开发周期短,易于调试,有助于快速验证想法。复杂模型虽然可能性能更好,但开发成本高,调试困难。
-
避免偏见:在模型选择过程中应避免个人偏见,应通过实验来测试不同的特征和参数,找到最适合当前问题的模型配置。
-
数据和时间的重要性:当前模型的性能好不代表未来也会如此,模型性能与数据相关联,需要定期评估和更新模型。
重要概念和建议
-
权衡(Trade-offs):理解模型中的权衡,如假阳性(False Positive)和假阴性(False Negative),这对模型评估非常关键。
-
模型假设:了解和理解模型假设的重要性。例如,大多数模型假设输入X和输出Y之间存在可预测的关系;独立同分布假设认为样本之间相互独立;还有一些模型假设输入输出间有特定的函数关系,以及数据遵循特定的分布(如正态分布)。
-
监督学习假设:监督学习方法假设存在一个函数集合,能将输入转换为输出,并且相似的输入会产生相似的输出。此外,一些模型(如线性回归分类器)假设决策边界是线性的,许多模型假设数据是正态分布的。
Children