当前位置:网站首页 > 数据工程 > 正文

特征工程是啥(特征工程是什么)



所谓特征工程即模型搭建之前进行的数据预处理和特征提取。有时人们常常好高骛远,数据都没处理好就开始折腾各种算法,从第一开始就有问题,那岂不是还没开始就已经结束了。所以说啊,不积跬步无以至千里,生活中的每个细节,都可能创造人生的辉煌。

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性。直接决定了模型预测的结果好坏。

简单的说,就是一个特征提取和数据预处理的过程。

而机器学习中想要做好特征处理,一定离不开一个工具,那就是sklearn库,本文主要写的也是sklearn在特征工程中的应用。

有时候,当我们拿到一份数据的时候,常常会发现有很多的缺失值。有缺失值的特征会给模型带来极大的噪音,对学习造成较大的干扰。这时候就需要我们对缺失数据进行一个处理。常用的处理方法有两种,删除法和填充法。

如果缺失的数量很多,而又没有证据表明这个特征很重要,那么可将这列直接删除,否则会对结果造成不良影响。在确定是否删除特征之前,一般使用data.isnull().sum()统计所有各列各自共有多少缺失值,如果缺失的数量非常少,而且数据不是时间序列那种必须连续的,那么可以将缺失值对应的样本删除。

举个例子,下表有三个特征,很明显特征2缺失值较多。

机器学习 | 特征工程(数据预处理、特征抽取)_数组

统计缺失值数目

运行结果

机器学习 | 特征工程(数据预处理、特征抽取)_数组_02

总共有26组数据,特征2缺失12组,故可将其删除。

但是,由于删除法误差太大,所以一般在数据处理的时候很少使用删除法,多用填补法。

通过已有的数据对缺失值进行填补:针对数据的特点,选择用0、最大值、均值、中位数等填充。但是用这些方法来填补也会有一定的误差,因为等于人为增加了噪声。

Pandas填充

pandas填充APIpandas.fillna(value=None, method=None……)

特殊值填充(以0填充为例)

机器学习 | 特征工程(数据预处理、特征抽取)_数组_03

中位数填充

前向后向填充

以上都是最常用、最简单的填充方法。

Sklearn填充

除了pandas有数据填充的功能,sklearn中也有填充功能。

sklearn填充API

sklearn.imputer.SimpleImputer(missing_values=np.nan,strategy='mean',anix=0)#其中strategy为填充的方案

imputer.fit_transform(X)

X:array格式的数据

返回值:array

举个例子,对[[1,2],[np.nan,3],[7,6]]进行缺失值填充,其中np.nan表示缺失值。这里以均值填充为例,即设置strategy=‘mean’。

1、调库

2、填充函数

3、结果

机器学习 | 特征工程(数据预处理、特征抽取)_数组_04

需要注意的是:不论是pandas填充缺失值还是sklearn填充缺失值,需要保证缺失值的类型为np.nan,必须为float类型。如果需要处理的特征不属于float类型,需要先用np.array将其转化为float类型。

简单的说归一化就是通过对原始数据进行变换把数据映射到某个区间(默认为[0,1])之内。

机器学习 | 特征工程(数据预处理、特征抽取)_数据_05

其中,max为一列的最大值,min为一列的最小值,X’‘为最终结果,mx,mi分别为指定区间值,默认mx=1,mi=0。

举个例子:

机器学习 | 特征工程(数据预处理、特征抽取)_归一化_06

上表中有四个特征,我们对特征1中的90进行归一化。第一列的最大值就是90,即max=90,最小值为60,即min=60,x=90,设置映射的区间为[0,1],即mi=0,mx=1,带入式子可得:

X’=(90-60)/(90-60)=1

X’’=1×(1-0)+0=1。

以此类推。

了解了归一化的定义之后,不免会产生一些问题,那就是为什么处理数据时非要把原始数据映射到某个区间呢?直接对原始数据进行处理不行吗?……下面用一个例子对其进行解释。

下表是一个相亲约会对象数据,此样本给出了相亲男士的三个特征,即飞机里程数、日常消费和玩游戏消耗时间占比。给出了女生对男生的评价结果。

假如让我来根据三个特征来对该男士进行评价,我可能主观认为飞机里程数占比较大,因为我认为飞机里程数大的人是一个富翁,长时间在飞机上待着(这里只是以此举例),所以我会潜意识中把飞机里程数作为评价的首要因素。但是事实情况是这样吗?不一定,在飞机上长时间待着的也有可能是机长。所以,为了消除主观感觉上的错误我们应该把三个特征看作同等重要。而把特征同等化,就是归一化的本质。此外,在机器学习中,常默认为数据越大,占比越重,所以我们需要对数据进行归一化来保证数据的同等。

综上得出归一化的目的:处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异对模型的影响。

机器学习中并不是所有算法都需要进行归一化处理,有些算法对各个特征的取值并不关心,例如一些概率模型:决策树、随机森林、朴素贝叶斯等。而有些算法对特征取值比较关心,比如回归、SVM等。

sklearn归一化API为sklearn.preprocessing.MinMaxScaler

MinMaxScaler函数语法:MinMaxScaler(feature_range=(0,1))#其中feature_range指的是需要映射的区间,默认[0,1]。

MinMaxScaler.fit_transform(X):通过直接调用fit_transform即可进行归一化。

要求输入数据类型:二维数组,即array形式

举例:

对以下三个特征进行归一化处理

机器学习 | 特征工程(数据预处理、特征抽取)_数据_07

1、调库

2、归一化函数

3、运行结果

机器学习 | 特征工程(数据预处理、特征抽取)_归一化_08

当然了,很多时候有大量的数据,需要直接读取csv或其他文件进行处理,也需要首先转化为array数组才能操作。将dataframe转化为array类型的方式一般有三种

df.values

df.as_matrix()

np.array(df)

例如读取excel文件

机器学习 | 特征工程(数据预处理、特征抽取)_归一化_09

也可得出同样的结果。

归一化存在的主要问题就是,如果数据异常点较多,会造成很大的误差。

以刚才的三个特征为例,在特征1的基础上增加了两个异常点如下,那么公式中的max值和min值势必会发生很大的变化,那么会给归一化的计算带来很大的影响。

机器学习 | 特征工程(数据预处理、特征抽取)_数据_10

所以归一化的缺点是处理异常点能力差 。

而在某些场景下最大值和最小值是变化的并且极易受到异常点的影响,所以这种方法的鲁棒性较差,只适合于传统精确小数据场景。

那么,在数据处理中如何解决异常点的问题呢?就需要用到标准化。

要求输入数据类型:二维数组,即array形式

举例:

对以下三个特征进行标准化处理

通过对原始数据进行变换把数据变换到均值为0,方差为1的范围内。

机器学习 | 特征工程(数据预处理、特征抽取)_数据_11

其中mean为平均值,σ为标准差。

因为标准差可以解决归一化存在的问题。标准差对异常点不敏感。

机器学习 | 特征工程(数据预处理、特征抽取)_归一化_12

上图中红点为平均值,粉点为两个异常值。当异常点出现时,总体数据的平均值和标准差并不会有特别大的波动。这也是在机器学习中标准化应用广泛的主要原因。

sklearn标准化API为sklearn.preprocessing.StandScaler

StandScaler.fit_transform(X):通过直接调用fit_transform即可进行标准化。

要求输入数据类型:二维数组,即array形式

举例:

对以下三个特征进行归一化处理

机器学习 | 特征工程(数据预处理、特征抽取)_数据_11

1、调库

2、标准化函数

3、运行结果

机器学习 | 特征工程(数据预处理、特征抽取)_数据_11

从上面的结果可知,每一列的和皆为0,即平均值为0,并且标准差为1。

对于归一化来说:如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变。

对于标准化来说:如果出现异常点,由于具有一定数据量, 少量的异常点对于平均值的影响并不大,从而方差改变较小。

有时候,我们获取到一份数据时,原始数据的种类有很多种,除了我们熟悉的数值型数据,还有大量符号化的文本。然而,我们无法直接将符号化的文字本身用于计算任务,而是需要通过某些处理手段,预先将文本量化为特征向量。比如我们在判断一个目标值时,常常会出现一些文本,字符串的值。

例如根据身高、发长等特征判断一个人的性别时,头发的‘长’、‘短’为文本值,需要先将其转化为数字。

在sklearn库中也提供了特征抽取的API

sklearn.feature_extraction

我们常常需要处理的数据类型包括字典特征提取、文本特征提取以及图像特征提取。

字典特征数据提取即对字典数据进行特征值化,sklearn中的字典特征数据提取API为

sklearn.feature_extraction.DictVectorizer

DictVectorizer语法:

DictVectorizer.fit_transform(X)

X:字典类型

返回值:sparse矩阵

DictVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值:转化之前数据格式

DictVectorizer.get_feature_names()

-返回特征类别名称

举个例子:

例如给出以下三个城市信息:

{‘city’:‘北京’,‘temperature’:35}

{‘city’:‘上海’,‘temperature’:38}

{‘city’:‘河北’,‘temperature’:32}

对其进行特征提取

1、调库

2、字典特征提取函数

3、运行结果

机器学习 | 特征工程(数据预处理、特征抽取)_数据_15

等一等,这是啥?

上面已经写到,其返回格式默认为sparse格式,检索数据下标。那么为什么这个函数要返回sparse格式?因为sparse矩阵节约内存,方便读取处理。但是这种格式我们并不常用,我们需要将其转换为我们熟悉的数组格式。

那么如何转化为数组格式呢?

只需要将函数中的语句dict = DictVectorizer()改成dict = DictVectorizer(sparse=False)

结果如下:

机器学习 | 特征工程(数据预处理、特征抽取)_数据_07

那么问题又来了,转化为的数组是什么意思呢?其实这些数组即为转化的特征值,为了更方便理解,我们用 DictVectorizer.get_feature_names()把特征值也打出来。

机器学习 | 特征工程(数据预处理、特征抽取)_归一化_17

所以,该模型提取了四个特征。而数组中的数值对应的就是这四个特征,如果city为上海,则把数组第一个值置为1,否则为0。如果city为北京,则把数组第二个值置为1,否则为0,以此类推。而数字形式则不进行转换,直接使用原来的数字。

拿第一行[0,1,0,35]举例,city不为上海,故第一个值为0。city为北京,故第二个值为1。city不为河北,故第三个值为0。最后的温度为数字,直接用35。

所以字典数据提取的本质为:把字典中一些类别数据,分别进行转换特征,进而转化为数字。

字典转化为的数组值就是我们熟悉的one-hot编码,至于为什么机器学习中要用one-hot编码以及one-hot编码的意义,请去百度。

对文本数据进行特征值化。

sklearn文本特征抽取API

sklearn.feature_extraction.text.CountVectorizer

CountVectorizer.fit_transform(X)

X:文本或者包含文本字符串的可迭代对象

返回值:返回sparse矩阵

CountVectorizer.inverse_transform(X)

X:array数据或者sparse矩阵

CountVectorizer.get_feature_names(X)

返回值:单词列表

举例,对一个文本进行特征提取

“life is short,i like python”,“life is too long,i dislike python”

1、调库

2、文本特征提取函数

3、运行结果

机器学习 | 特征工程(数据预处理、特征抽取)_归一化_17

依然是sparse形式。之前字典特征提取sklearnAPI中可以直接将sparse调成False,但是文本提取特征API没有该功能,也算是函数的一个bug吧。所以我们只能将最后的data转化为array形式。将print(data)改成print(data.toarrary())即可。

机器学习 | 特征工程(数据预处理、特征抽取)_数据_19

为了更好的理解上面数组的意义,将提取特征输出。

机器学习 | 特征工程(数据预处理、特征抽取)_归一化_17

所以,文本特征提取的特点为

统计文章中所有的词,但是重复的只统计一次。

输出的数组中的数表示词出现的次数(这里每句话中的单词都没有重复)。

单个字母不进行统计,例如i。

为了更好的理解第二个特点,我们将原来的文本改为

“life is is,i like python”,“life is too long,i dislike python”

机器学习 | 特征工程(数据预处理、特征抽取)_数据_19

显然,is出现了两次,数组中显示2。

中文的提取道理类似,举一个例子。对下面一句话进行特征提取:

“人生苦短,我喜欢 python”,“人生漫长,我不喜欢 python”

运行结果

机器学习 | 特征工程(数据预处理、特征抽取)_数组_22

但是这是我们想要的结果吗?很显然不是,我们需要的是词语,而它对中文的处理默认为把逗号、空格等作为一个分隔。当然我们可以把词语利用空格进行分割,比如改成

人生 苦短,我 喜欢 python","人生 漫长,我 不喜欢 python

运行结果

机器学习 | 特征工程(数据预处理、特征抽取)_数组_23

看来敲空格是有一定的用处,那么当我们处理大批的文字的时候呢,肯定就不能用这种方法来操作。所以我们需要对其进行分词,常用的分词工具就是jieba库。

jieba.cut:返回一个可迭代的generator。需先将其转化为列表,再转化为字符串。

再来举个例子

随便挑选《三体》中的三句经典语录

1、唯一不可阻挡的是时间,它像一把利刃,无声地切开了坚硬和柔软的一切,恒定的向前推进着,没有任何东西能够使它的行径产生丝毫颠簸,它却改变着一切。

2、我们都是阴沟里的虫子,但总还是得有人仰望星空。

3、要知道,一个文学人物十分钟的行为,可能是她十年的经历的反映。

1、调库

import jieba

2、分词函数

3、文本特征提取

4、运行结果

机器学习 | 特征工程(数据预处理、特征抽取)_归一化_24

根据得到的结果一般就可以对句子或者文章进行分类。相类似的文章其关键词比较相似,即得到的数组比较相似。

但是在实际中,很少会用到统计词频的方式。因为在所有的文章中都会共存一些相同的高频词语,比如“我们”,“因为”,“所以”等等这些共性的词并不会对判断文章的类型有很大的帮助。所以,我们更需要的是那些可以反应文章类型的关键词,这就要用到TF-IDF。

TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。

词频(TF)表示关键字在文本中出现的频率。

逆向文件频率 (IDF) :是由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。所以,如果包含词条的文档越少, IDF越大,则说明词条具有很好的类别区分能力。

TF-IDF实际上是表示的词的重要程度,计算方式为:TF×IDF

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

TF-IDF的主要思想是: 如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

sklearn中的API:sklearn.feature_extraction.text.TfidfVectorizer

TfidfVectorizer(stop_words=None) #stop_words表示哪些词可以忽略

TfidfVectorizer.fit_transform(X)

X:文本或者包含文本字符串的可迭代对象

返回值:返回sparse矩阵

1、调库

2、TF-IDF函数

3、结果

机器学习 | 特征工程(数据预处理、特征抽取)_归一化_25

从得出的数组中可知,数字越大的,词就越重要。

总而言之,文本特征提取在自然语言处理领域是必不可少的一部分。

到此这篇特征工程是啥(特征工程是什么)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 特征工程的意义(特征工程的意义和价值)2024-12-14 15:00:06
  • 数据特征工程主要包括哪些步骤(数据特征工程主要包括哪些步骤)2024-12-14 15:00:06
  • 西游记中奎木狼出现的四次2024-12-14 15:00:06
  • 基于FPGA通过1Gb以太网低延迟传输专业级4K AV信号解决方案2024-12-14 15:00:06
  • 数仓建模—数据架构_数仓数据建模的主流模型有哪些2024-12-14 15:00:06
  • 特征工程的目的(特征工程的目的不包括)2024-12-14 15:00:06
  • 数据特征工程(数据特征工程常用方法)2024-12-14 15:00:06
  • 特征工程包含(特征工程包含哪三个方面?)2024-12-14 15:00:06
  • 数据特征工程常用方法(数据分析特征工程)2024-12-14 15:00:06
  • 存储工程师面试题目(存储工程师职责)2024-12-14 15:00:06
  • 全屏图片