Feature
特征工程学习笔记
概述
特征工程需要对领域有一定的专业知识。了解领域后,能够识别出对模型有帮助的特征。
基本操作
1. 处理缺失数据
- 确认缺失类型:判断数据是随机缺失还是故意缺失,两者的处理方式不同。
- 处理方法:
- 随机缺失:
- 删除缺失值:可选择删除整列或行。删除行可能导致模型偏差,因为数据量减少。
- 补全数据:使用默认值,需确保默认值不会与真实数据混淆。
- 故意缺失:需根据情况具体分析处理。
- 随机缺失:
2. 尺度缩放
- 目的:将不同范围的数据缩放到统一范围。
- 方法:
- 数据归一化:数据减去最小值后除以最大值与最小值之差。
- 标准化:数据减去平均值后除以标准差,使数据落在0-1范围内。
- 对数变换:处理有偏数据,使其趋向正态分布。
3. 离散化处理
- 将连续数据离散成不同类别,便于建模,因不同类别可能更易于处理。
4. 处理分类数据
- 问题:实际中可能出现新类别,导致无法准确分类。
- 解决方法:
- 哈希函数:固定空间大小,虽可能发生哈希冲突,但影响不大。
- 特征交叉:将两个特征拼接,形成新特征,在线性回归和逻辑回归中效果好。
- 位置分布的嵌入:结合位置信息。具体做法是将位置向量和词汇向量相加,得到含位置信息的新向量。
Children