第一章 绪论
1、填空题
(1)从技术层面上看,数据挖掘是( )。从商业层面看,数据挖掘是( )。
(2)数据挖掘所得到的信息具有( )、有效和实用三个特征。
答:先前未知。
2、数据挖掘在生活场景中的应用
3、区分数据挖掘和查询
数据挖掘和传统数据分析方法(如:查询、报表、联机应用分析等)有本质区别。数据挖掘是没有明确前提下去挖掘信息和 发现知识。
例:
在一句话中找出人名是数据挖掘,在表格中找出人民是查询
第二章 数据处理基础
1、填空题
(1)数据是( ),属性分为( )。
答:数据对象及其属性的集合;标称和序数属性、区间和比率属性。
2、计算题
(1)计算相似度量
老师给的范围:
距离度量(曼哈顿、欧式):
相似系数(余弦相似度):
二值属性的相似性(简单匹配相似度关系数 d、s)
Jaccard系数:
例题1:
答:
例题2:
答:
(2)数据统计特征计算
记公式:
算术平均数
加权算术均值
截断均值:丢弃高端和低端(p/2)%的数据,再算均值。
中位数
四分位数
中列数:(max+min)/2
众数
答:
3、问答题
(1)为什么要数据预处理?列出三种常用的预处理技术?
答:数据预处理的目的:提供干净、简洁、准确的数据,提高挖掘效率和准确性。
预处理技术:数据清理、数据集成、数据变换、数据归约、数据离散化。
①数据清理:数据是不完整的、有噪声的、不一致的(填充缺失值、去除噪声并识别离散点、纠正数据中的不一致值)
②数据集成(聚合):对数据进行聚合,将两个或多个数据源的数据,存放在一个一致的数据存储设备中。
③数据变换:将数据转换成适合于挖掘的形式。(平滑、聚集、数据泛化、规范化、数据离散化)
④数据归约:包含抽样、特征选择。
4、噪声数据的平滑方法
(1)分箱:
第一步:数据被分为n个等深箱
第二步:使用平均值或者边界平滑
箱越深、宽度越大,平滑效果越好。
5、数据变换
A、规范化
规范化是将原来的度量值转换为无量纲的值。(按比例缩放,映射到一个新的值域中)
(1)最小-最大规范化(转化为【0,1】范围内)
(2)z-score规范化(概率论的标准化)
(3)小数定标规范化(转化为”零点几×10的n次方“的格式)
B、特征构造
从原始特征船舰新的特征集。
C、数据离散化
利用分类值标记替换连续属性的数值。分为监督和非监督离散化。
无监督离散方法:(1)等宽(2)等频(3)基于聚类分析。
有监督离散方法:(1)基于熵:自顶向下
6、数据归约
A、抽样
压缩行数
有三种抽样方法。有放回、无放回、分层(p36)
B、特征选择
压缩列数
理想的特征子集:每个有价值的非目标特征应与目标特征强相关,而非目标特征之间不相关或者弱相关。
第三章 分类与回归
1、填空题
(1)评估分类模型准确率的方法包括:( )、( )和随机子抽样的方法。
答:保持方法、k-折交叉验证。
2、判断题
(1)回归预测输出的是连续取值( )
(2)KNN分类方法需要事先建模。( )
答:×
KNN是消极学习方法,不用事先建模。基本步骤:
1 算距离。给定测试对象,计算它与训练集中每个对象的距离;
2 找邻居。圈定距离最近的 k 个训练对象,作为测试对象的近邻。
3 做分类。 根据这k个近邻归属的主要类别,来对测试对象分类。
(3)AdaBoost 算法是一种将多个分类器聚集在一起来提高分类准确率的算法。( )
答:√
到此这篇【数据挖掘】期末复习(样卷题目+少量知识点)_数据挖掘 题库的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/kjbd-sjwj/5498.html