Data_leakage

数据泄漏问题

数据泄漏是指在训练数据中不慎泄露了与测试数据相关的规律,可能导致模型过拟合,无法准确反映实际情况。

常见原因

  1. 时间相关数据的随机分割

    • 应按时间顺序分割数据,以捕捉每天的规律。
    • 随机分割可能导致测试结果可预测。
  2. 在数据分割前进行尺度缩放

    • 这可能导致整体数据的平均值和标准差泄露到训练集。
  3. 使用所有数据的统计值补齐数据

    • 这也会导致数据泄漏。
  4. 未正确处理数据的重复性

    • 分割时可能导致数据集中大量重复,尤其是当数据高度相关但被分割到不同组时。

检测方法

  • 关注特征的重要性

    • 如果某特征非常重要,可能存在数据泄漏。
    • 特征重要性显示每个特征对模型性能的影响。
  • 检查特征覆盖率

    • 观察特征在所有数据中的占比。