【数据挖掘】期末复习（样卷题目+少量知识点）_数据挖掘题库

第一章绪论

1、填空题

（1）从技术层面上看，数据挖掘是（）。从商业层面看，数据挖掘是（）。

（2）数据挖掘所得到的信息具有（）、有效和实用三个特征。

答：先前未知。

2、数据挖掘在生活场景中的应用

在这里插入图片描述

3、区分数据挖掘和查询

数据挖掘和传统数据分析方法（如：查询、报表、联机应用分析等）有本质区别。数据挖掘是没有明确前提下去挖掘信息和发现知识。
例：
在一句话中找出人名是数据挖掘，在表格中找出人民是查询

第二章数据处理基础

1、填空题

（1）数据是（），属性分为（）。

答：数据对象及其属性的集合；标称和序数属性、区间和比率属性。

2、计算题

（1）计算相似度量

老师给的范围：
距离度量（曼哈顿、欧式）：
在这里插入图片描述

相似系数（余弦相似度）：
在这里插入图片描述

二值属性的相似性（简单匹配相似度关系数 d、s）
Jaccard系数：
在这里插入图片描述

例题1：

答：

例题2：

答：

（2）数据统计特征计算

记公式：
算术平均数
加权算术均值
截断均值：丢弃高端和低端（p/2）%的数据，再算均值。
中位数
四分位数
中列数：（max+min）/2
众数

答：

3、问答题

（1）为什么要数据预处理？列出三种常用的预处理技术？

答:数据预处理的目的：提供干净、简洁、准确的数据，提高挖掘效率和准确性。

预处理技术：数据清理、数据集成、数据变换、数据归约、数据离散化。
①数据清理：数据是不完整的、有噪声的、不一致的（填充缺失值、去除噪声并识别离散点、纠正数据中的不一致值）
②数据集成（聚合）：对数据进行聚合，将两个或多个数据源的数据，存放在一个一致的数据存储设备中。
③数据变换：将数据转换成适合于挖掘的形式。（平滑、聚集、数据泛化、规范化、数据离散化）
④数据归约：包含抽样、特征选择。

4、噪声数据的平滑方法

（1）分箱：
第一步：数据被分为n个等深箱
第二步：使用平均值或者边界平滑

箱越深、宽度越大，平滑效果越好。

5、数据变换

A、规范化

规范化是将原来的度量值转换为无量纲的值。（按比例缩放，映射到一个新的值域中）
（1）最小-最大规范化（转化为【0,1】范围内）
（2）z-score规范化（概率论的标准化）
（3）小数定标规范化（转化为”零点几×10的n次方“的格式）

B、特征构造

从原始特征船舰新的特征集。

C、数据离散化

利用分类值标记替换连续属性的数值。分为监督和非监督离散化。
无监督离散方法：（1）等宽（2）等频（3）基于聚类分析。
有监督离散方法：（1）基于熵：自顶向下

6、数据归约

A、抽样

压缩行数

有三种抽样方法。有放回、无放回、分层（p36）

B、特征选择

压缩列数

理想的特征子集：每个有价值的非目标特征应与目标特征强相关，而非目标特征之间不相关或者弱相关。

第三章分类与回归

1、填空题

（1）评估分类模型准确率的方法包括：（）、（）和随机子抽样的方法。

答：保持方法、k-折交叉验证。

2、判断题

（1）回归预测输出的是连续取值（）

（2）KNN分类方法需要事先建模。（）

答：×
KNN是消极学习方法，不用事先建模。基本步骤：
1 算距离。给定测试对象，计算它与训练集中每个对象的距离；
2 找邻居。圈定距离最近的 k 个训练对象，作为测试对象的近邻。
3 做分类。根据这k个近邻归属的主要类别，来对测试对象分类。

（3）AdaBoost 算法是一种将多个分类器聚集在一起来提高分类准确率的算法。（）

答：√

到此这篇【数据挖掘】期末复习（样卷题目+少量知识点）_数据挖掘题库的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇：数据挖掘实战-基于机器学习的电商文本分类模型_文本挖掘进行数据分析的应用场景

下一篇：数据挖掘案例_ai数据分析系统

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/kjbd-sjwj/5498.html

【数据挖掘】期末复习（样卷题目+少量知识点）_数据挖掘题库

目录

第一章绪论

1、填空题

（1）从技术层面上看，数据挖掘是（）。从商业层面看，数据挖掘是（）。

（2）数据挖掘所得到的信息具有（）、有效和实用三个特征。

2、数据挖掘在生活场景中的应用

3、区分数据挖掘和查询

第二章数据处理基础

1、填空题

（1）数据是（），属性分为（）。

2、计算题

（1）计算相似度量

（2）数据统计特征计算

3、问答题

（1）为什么要数据预处理？列出三种常用的预处理技术？

4、噪声数据的平滑方法

5、数据变换

A、规范化

B、特征构造

C、数据离散化

6、数据归约

A、抽样

B、特征选择

第三章分类与回归

1、填空题

（1）评估分类模型准确率的方法包括：（）、（）和随机子抽样的方法。

2、判断题

（1）回归预测输出的是连续取值（）

（2）KNN分类方法需要事先建模。（）

（3）AdaBoost 算法是一种将多个分类器聚集在一起来提高分类准确率的算法。（）

相关文章：

目录

第一章 绪论

1、填空题

（1）从技术层面上看，数据挖掘是（ ）。从商业层面看，数据挖掘是（ ）。

（2）数据挖掘所得到的信息具有（ ）、有效和实用三个特征。

2、数据挖掘在生活场景中的应用

3、区分数据挖掘和查询

第二章 数据处理基础

1、填空题

（1）数据是（ ），属性分为（ ）。

2、计算题

（1）计算相似度量

（2）数据统计特征计算

3、问答题

（1）为什么要数据预处理？列出三种常用的预处理技术？

4、噪声数据的平滑方法

5、数据变换

A、规范化

B、特征构造

C、数据离散化

6、数据归约

A、抽样

B、特征选择

第三章 分类与回归

1、填空题

（1）评估分类模型准确率的方法包括：（ ）、（ ）和随机子抽样的方法。

2、判断题

（1）回归预测输出的是连续取值（ ）

（2）KNN分类方法需要事先建模。（ ）

（3）AdaBoost 算法是一种将多个分类器聚集在一起来提高分类准确率的算法。（ ）

相关文章：

第一章绪论

（1）从技术层面上看，数据挖掘是（）。从商业层面看，数据挖掘是（）。

（2）数据挖掘所得到的信息具有（）、有效和实用三个特征。

第二章数据处理基础

（1）数据是（），属性分为（）。

第三章分类与回归

（1）评估分类模型准确率的方法包括：（）、（）和随机子抽样的方法。

（1）回归预测输出的是连续取值（）

（2）KNN分类方法需要事先建模。（）

（3）AdaBoost 算法是一种将多个分类器聚集在一起来提高分类准确率的算法。（）