大数据预处理的方法主要包括哪些?

如题所述

1、数据清理

数据清理例程就是通过填写缺失值、光滑噪声数据、识别或者删除离群点,并且解决不一致性来进行“清理数据”。

2、数据集成

数据集成过程将来自多个数据源的数据集成到一起。

3、数据规约

数据规约是为了得到数据集的简化表示。数据规约包括维规约和数值规约。

4、数据变换

通过变换使用规范化、数据离散化和概念分层等方法,使得数据的挖掘可以在多个抽象层面上进行。数据变换操作是提升数据挖掘效果的附加预处理过程。

数据转换就是将数据进行转换或归并,从而构成一个适合数据处理的描述形式。常用的转换策略如下。规格化处理。

规格化处理就是将一个属性取值范围投射到一个特定范围之内,以消除数值型属性因大小不一而造成挖掘结果的偏差,常常用于神经网络、基于距离计算的最近邻分类和聚类挖掘的数据预处理。对于神经网络,采用规格化后的数据不仅有助于确保学习结果的正确性,而且也会帮助提高学习的效率。对于基于距离计算的挖掘,规格化方法可以帮助消除因属性取值范围不同而影响挖掘结果的公正性。

温馨提示:答案为网友推荐,仅供参考
相似回答