Data_leakage
数据泄漏问题
数据泄漏是指在训练数据中不慎泄露了与测试数据相关的规律,可能导致模型过拟合,无法准确反映实际情况。
常见原因
-
时间相关数据的随机分割:
- 应按时间顺序分割数据,以捕捉每天的规律。
- 随机分割可能导致测试结果可预测。
-
在数据分割前进行尺度缩放:
- 这可能导致整体数据的平均值和标准差泄露到训练集。
-
使用所有数据的统计值补齐数据:
- 这也会导致数据泄漏。
-
未正确处理数据的重复性:
- 分割时可能导致数据集中大量重复,尤其是当数据高度相关但被分割到不同组时。
检测方法
-
关注特征的重要性:
- 如果某特征非常重要,可能存在数据泄漏。
- 特征重要性显示每个特征对模型性能的影响。
-
检查特征覆盖率:
- 观察特征在所有数据中的占比。