数据分析
1.同比与环比表示什么
- 同比:与历史同时期比较,就是与不同年份的同一时期作比较
- 例如:2019年7月份与2018年7月分相比
- 环比:与上一统计段比较,就是与前一个相邻的时期作比较
- 例如:2019年7月分与2019年6月份相比
2.阐述一个数据分析的主要流程(例子:航空客户价值分析)
业务系统 ——> 数据抽取 ——> 数据探索与预处理 ——> 建模&应用 ——> 结果&反馈
3.如何进行异常值处理
在数据预处理时,异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。
异常值处理方法 | 方法描述 |
---|---|
删除含有异常值的记录 | 直接将含有异常值的记录删除 |
视为缺失值 | 将异常值视为缺失值,利用缺失值处理的方法进行处理 |
平均值修正 | 可用前后两个观测的平均值修正该异常值 |
不处理 | 直接在具有异常值的数据上进行挖掘建模 |
4.什么是数据规约?如何进行数据规约
在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率
数据规约的意义在于:
- 降低无效、错误数据对建模的影响,提高建模的准确性
- 少量且具有代表性的数据将大幅缩减数据挖掘所需的时间
- 降低储存数据的成本
数据规约分为属性规约和数值规约
属性规约常用的方法
属性规约方法 | 方法描述 | 方法解析 |
---|---|---|
合并属性 | 将一些旧属性合为新属性 | 初始属性集:{A1,A2,A3,B1,B2,C} {A1,A2,A3} ——>A {B1,B2} ——>B ---->规约后属性集:{A,B,C} |
逐步向前选择 | 从一个空属性集开始,每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定阈值约束为止 | 初始属性集:{A1,A2,A3,A4,A5,A6} {} —>{A1} —>{A1,A4} ---->约束后属性集:{A1,A4,A6} |
逐步向后选择 | 从一个空属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去,直到无法选择出最差属性为止或满足一定阈值约束为止 | 初始属性集:{A1,A2,A3,A4,A5,A6} —>{A1,A3,A4,A5,A6}—>{A1,A4,A5,A6} ---->约束后属性集:{A1,A4,A6} |
决策数归纳 | 利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现在这个决策树上的属性均可认为是无关属性,因此将这些属性从初始集合中删除,就可以获得一个较优的属性子集 |
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/kjbd-fxjc/5403.html