一般先做个别字段的清洗,再做全局清洗(即对全部数据)。对吗?

如题所述

一般来说,在数据清洗的过程中,应该先进行局部清洗,再进行全局清洗。具体来说,局部清洗是指对单个字段或者单条数据进行清洗处理,目的是去除或者修复某些异常或者错误的数据,使这些数据符合预期的规范和格式。例如,对于一个身份证号码字段,应该先对每个身份证号码进行格式校验和去重,去除不合法或者重复的号码,保证数据的准确性和完整性。在进行局部清洗时,可以使用各种数据处理工具和技术,如正则表达式、Pandas等。
全局清洗则是指对整个数据集进行清洗和处理,目的是去除或者修复数据中的异常和错误,保证整个数据集的质量和可信度。例如,对于一个数据集中的日期字段,应该先对每个日期进行格式校验和标准化,去除不合法或者错误的日期,然后再考虑如何进行数据分析和挖掘。在进行全局清洗时,应该对整个数据集进行分析和预处理,然后选择合适的清洗工具和技术,如数据挖掘算法、数据可视化工具等。
总之,在进行数据清洗时,应该先进行局部清洗,然后再进行全局清洗,这样可以保证数据清洗的效果和准确性。
温馨提示:答案为网友推荐,仅供参考
相似回答