数据挖掘中常用的数据清洗方法 数据清洗的方法包括哪些


【数据挖掘中常用的数据清洗方法 数据清洗的方法包括哪些】
数据清洗技术有哪些数据清洗是指在数据集中发现不准确、不完整或不合理数据 , 并对这些数据进行修补或移除以提高数据质量的过程 。而通常来说 , 数据清洗框架由5个步骤构成 , 第一就是定义错误类型 , 第二就是搜索并标识错误实例 , 第三就是改正错误 , 第四就是文档记录错误实例和错误类型 , 第五就是修改数据录入程序以减少未来的错误 。
清洗数据有三个方法 , 分别是分箱法、聚类法、回归法 。这三种方法各有各的优势 , 能够对噪音全方位的清理 。分箱法是一个经常使用到方法 , 所谓的分箱法 , 就是将需要处理的数据根据一定的规则放进箱子里 , 然后进行测试每一个箱子里的数据 , 并根据数据中的各个箱子的实际情况进行采取方法处理数据 。
怎么分箱 , 我们可以按照记录的行数进行分箱 , 使得每箱有一个相同的记录数 。或者我们把每个箱的区间范围设置一个常数 , 这样我们就能够根据区间的范围进行分箱 。其实我们也可以自定义区间进行分箱 。这三种方式都是可以的 。分好箱号 , 我们可以求每一个箱的平均值 , 中位数、或者使用极值来绘制折线图 , 一般来说 , 折线图的宽度越大 , 光滑程度也就越明显 。
数据挖掘中常用的数据清洗方法有哪些数据清洗目的主要有:
①解决数据质量问题;
②让数据更适合做挖掘;
数据清洗是对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据 , 选用一定方法进行“清洗” , 为后续的数据分析做准备 。
数据清洗的方法有:
①数据数值化
对存在各种不同格式的数据形式的原始数据 , 对其进行标准化操作 。对字符串取值 , 按照ANSI码值求和得到字符串的值 , 如果值太大 , 取一个适当的质数对其求模 。
②标准化 normalization
对整体数据进行归一化工作 , 利用min-max标准化方法将数据都映射到一个指定的数值区间 。
③数据降维
原始数据存在很多维度 , 使用主成分分析法对数据的相关性分析来降低数据维度 。
④数据完整性
数据完整性包括数据缺失补数据和数据去重;
补全数据的方法有:


  1. 通过身份证件号码推算性别、籍贯、出生日期、年龄(包括但不局限)等信息补全;

  2. 通过前后数据补全;

  3. 实在补不全的 , 对数据进行剔除 。


数据去重的方法有:

  1. 用sql或者excel“去除重复记录”去重;

  2. 按规则去重 , 编写一系列的规则 , 对重复情况复杂的数据进行去重 。


数据清洗有哪些方法数据清洗有两种办法 , 第一种是物理办法 , 直接通过对磁盘内信息的格式化重新加入新的数据 , 可以把原先的数据清洗掉 。
数据挖掘中常用的数据清洗方法数据挖掘中常用的数据清洗方法
对于数据挖掘来说 , 80%的工作都花在数据准备上面 , 而数据准备 , 80%的时间又花在数据清洗上 , 而数据清洗的工作 , 80%又花在选择若干种适当高效的方法上 。用不同方法清洗的数据 , 对后续挖掘的分析工作会带来重大影响 。
1、数值化
由于原始数据往往存在各种不同格式的数据形式 , 比如如果你要处理的数据是数值型 , 但是原始数据也许有字符型或者其他 , 那就要对其进行标准化操作 。处理的方式可以很简单也可以很复杂 , 我采取过的一个方法是:对字符串取值 , 按照ANSI码值求和得到字符串的值 , 如果值太大 , 可以取一个适当的质数对其求模 , 本质上就是映射到一个区间了 。然后就得到数值型的数据了 。
2、标准化 normalization
由于原始数据各个维度之间的数值往往相差很大 , 比如一个维度的最小值是0.01 , 另一个维度最小值却是1000 , 那么也许在数据分析的时候 , 计算相关性或者方差啥的指标 , 后者会掩盖了前者的作用 。因此有必要对整体数据进行归一化工作 , 也就是将它们都映射到一个指定的数值区间 , 这样就不会对后续的数据分析产生重大影响 。我采取过的一个做法是:min-max标准化 。
3、降维
由于原始数据往往含有很多维度 , 也就是咱们所说的列数 。比如对于银行数据 , 它往往就含有几十个指标 。这些维度之间往往不是独立的 , 也就是说也许其中之间若干的维度之间存在关联 , 也许有他就可以没有我 , 因此咱们可以使用数据的相关性分析来降低数据维度 。我使用过的一个方法是:主成分分析法 。
4、完整性:
解决思路:数据缺失 , 那么补上就好了 。
补数据有什么方法?
- 通过其他信息补全 , 例如使用身份证件号码推算性别、籍贯、出生日期、年龄等
- 通过前后数据补全 , 例如时间序列缺数据了 , 可以使用前后的均值 , 缺的多了 , 可以使用平滑等处理 , 记得Matlab还是什么工具可以自动补全
- 实在补不全的 , 虽然很可惜 , 但也必须要剔除 。但是不要删掉 , 没准以后可以用得上
- 解决数据的唯一性问题
解题思路:去除重复记录 , 只保留一条 。
去重的方法有:
- 按主键去重 , 用sql或者excel“去除重复记录”即可 , 
- 按规则去重 , 编写一系列的规则 , 对重复情况复杂的数据进行去重 。例如不同渠道来的客户数据 , 可以通过相同的关键信息进行匹配 , 合并去重 。
- 解决数据的权威性问题
解题思路:用最权威的那个渠道的数据
方法:
对不同渠道设定权威级别 , 例如:在家里 , 首先得相信媳妇说的 。。。
- 解决数据的合法性问题
解题思路:设定判定规则
- 设定强制合法规则 , 凡是不在此规则范围内的 , 强制设为最大值 , 或者判为无效 , 剔除
- 字段类型合法规则:日期字段格式为“2010-10-10”
- 字段内容合法规则:性别 in (男、女、未知);出生日期<=今天
设定警告规则 , 凡是不在此规则范围内的 , 进行警告 , 然后人工处理
- 警告规则:年龄》110
离群值人工特殊处理 , 使用分箱、聚类、回归、等方式发现离群值
解决数据的一致性问题
解题思路:建立数据体系 , 包含但不限于:
- 指标体系(度量)
- 维度(分组、统计口径)
- 单位
- 频度
- 数据
数据清洗的方法有哪些?现如今 , 科技得到了空前发展 , 正是由于这个原因 , 很多科学技术得到大幅度的进步 。就在最近的几年里 , 出现了很多的名词 , 比如大数据、物联网、云计算、人工智能等 。其中大数据的热度是最高的 , 这是因为现在很多的行业积累了庞大的原始数据 , 通过数据分析可以得到对企业的决策有帮助的数据 , 而大数据技术能够比传统的数据分析技术更优秀 。但是 , 大数据离不开数据分析 , 数据分析离不开数据 , 海量的数据中有很多是我们我们需要的数据 , 也有很多我们不需要的数据 。正如世界上没有完全纯净的东西 , 数据也会存在杂质 , 这就需要我们对数据进行清洗才能保证数据的可靠性 。一般来说 , 数据中是存在噪音的 , 那么噪音是怎么清洗的呢?我们就在这篇文章中给大家介绍一下数据清洗的方法 。
通常来说 , 清洗数据有三个方法 , 分别是分箱法、聚类法、回归法 。这三种方法各有各的优势 , 能够对噪音全方位的清理 。分箱法是一个经常使用到方法 , 所谓的分箱法 , 就是将需要处理的数据根据一定的规则放进箱子里 , 然后进行测试每一个箱子里的数据 , 并根据数据中的各个箱子的实际情况进行采取方法处理数据 。看到这里很多朋友只是稍微明白了 , 但是并不知道怎么分箱 。如何分箱呢?我们可以按照记录的行数进行分箱 , 使得每箱有一个相同的记录数 。或者我们把每个箱的区间范围设置一个常数 , 这样我们就能够根据区间的范围进行分箱 。其实我们也可以自定义区间进行分箱 。这三种方式都是可以的 。分好箱号 , 我们可以求每一个箱的平均值 , 中位数、或者使用极值来绘制折线图 , 一般来说 , 折线图的宽度越大 , 光滑程度也就越明显 。
回归法和分箱法同样经典 。回归法就是利用了函数的数据进行绘制图像 , 然后对图像进行光滑处理 。回归法有两种 , 一种是单线性回归 , 一种是多线性回归 。单线性回归就是找出两个属性的最佳直线 , 能够从一个属性预测另一个属性 。多线性回归就是找到很多个属性 , 从而将数据拟合到一个多维面 , 这样就能够消除噪声 。
聚类法的工作流程是比较简单的 , 但是操作起来确实复杂的 , 所谓聚类法就是将抽象的对象进行集合分组 , 成为不同的集合 , 找到在集合意外的孤点 , 这些孤点就是噪声 。这样就能够直接发现噪点 , 然后进行清除即可 。
关于数据清洗的方法我们给大家一一介绍了 , 具体就是分箱法、回归法、聚类法 。每个方法都有着自己独特的优点 , 这也使得数据清洗工作能够顺利地进行 。所以说 , 掌握了这些方法 , 有助于我们后面的数据分析工作 。
如何进行数据清洗数据清理是有一些步骤的 , 一般分为缺失值清洗 , 格式内容清洗 , 逻辑错误清洗 , 非需求数据清洗 , 关联性验证 。
缺失值是最常见的数据问题 , 处理缺失值也有很多方法 , 我建议按照以下四个步骤进行:1、确定缺失值范围:对每个字段都计算其缺失值比例 , 然后按照缺失比例和字段重要性 , 分别制定策略 。
2、去除不需要的字段:这一步很简单 , 直接删掉即可 , 但强烈建议清洗每做一步都备份一下 , 或者在小规模数据上试验成功再处理全量数据 。
3、填充缺失内容:某些缺失值可以进行填充 。
4、重新取数:如果某些指标非常重要又缺失率高 , 那就需要和取数人员或业务人员了解 , 是否有其他渠道可以取到相关数据 。
第二步:格式内容清洗
如果数据是由系统日志而来 , 那么通常在格式和内容方面 , 会与元数据的描述一致 。而如果数据是由人工收集或用户填写而来 , 则有很大可能性在格式和内容上存在一些问题 。
第三步:逻辑错误清洗
这部分的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据 , 防止分析结果走偏 。
第四步:非需求数据清洗
这一步说起来非常简单:把不要的字段删了 。
但实际操作起来 , 有很多问题 。
第五步:关联性验证
如果你的数据有多个来源 , 那么有必要进行关联性验证 。例如 , 你有汽车的线下购买信息 , 也有电话客服问卷信息 , 两者通过姓名和手机号关联 , 要看一下同一个人线下登记的车辆信息和线上问卷问出来的车辆信息是不是同一辆 , 如果不是 , 那么需要调整或去除数据 。
关于数据清洗的方法和数据清洗的方法包括哪些的内容就分享到这儿!更多实用知识经验 , 尽在 www.hubeilong.com