当前位置:网站首页 > 机器学习基础 > 正文

机器学习算法(机器学习)



K Nearest Neighbor算法又叫KNN算法,它的原理是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

两个样本间距离可通过欧式距离计算,如a(a1,a2,a3),b(b1,b2,b3),则:

k值取的太小容易受到异常点的影响,而取的过大容易受到样本不均衡的影响。 

 
  • 交叉验证
  • 超参数搜索

交叉验证(cross validation)

目的是为了让训练得到的模型结果更加准确做法:将拿到的训练数据,分为训练集和验证集。以下图为例:将数据分成4份,其中一份作为验证集,然后经过4次(组)的测试,每次都更换不同的验证集,即得到4组模型的结果,取平均值作为最终结果,称为4折交叉验证。

  • 训练集:训练集+验证集
  • 测试集:测试集 

2b8e9d756d052e2f8c5506646ab50fc3.png

超参数搜索-网格搜索(Gird Search) 

通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的k值),这种叫超参数。但是手动调参繁杂,所以需要对模型预设几种超参数组合。每种超参数都采用交叉验证来进行评估,最后选出最优参数组合建立模型。

 

朴素是因为加了个假设:特征与特征之间是相互独立的。故朴素贝叶斯算法=朴素+贝叶斯公式。

贝叶斯公式:

 

注:w为给定文档的特征值,c为文档类别 。

13e16632799d18ba82930cdf71079bcc.png

一般还需要引入拉普拉斯平滑系数进行计算,目的是为了防止计算出的分类概率为0(数据少时易出现)。

为指定系数一般为1,m为训练文档中统计出的特征词个数。

 

缺点:由于加了样本属性独立性的假设,所以如果特征属性有关联时效果不好。

 

类似于if-else嵌套构建起的一颗树。 

简单来说信息是消除随机不定性的东西,比如当我不知道小明的年龄时,小明说他今年18岁,那么小明的话就是一条信息,这时小华接着说小明明年19岁,小华的话就不是信息了。而要衡量消除的不确定性有多少,就引入了信息熵。

H的专业术语称之为信息熵,单位为比特,其中底数b一般为2。

决策树的划分条件之一 :信息增益

特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)于特征A给定条件下D的信息条件熵H(D|A)之差:

1465c7a3e2dbd8dfdbed1f7f3ca82b9f.png 比如从下面这个例子来理解公式,应该选取什么特征开始构建一棵树,从而决策是否贷款。

d8b71a555c7e57946d26647189f96d61.pngb6c10f3347d68fb3cbdcd25a91ba10ed.png 

 

 

集成学习通过建立几个模型组合来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立的学习和作出预测,这些预测最后结合成组合预测,因此优于任何一个单分类的作出预测。在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数决定。

d6fbde121fa09c6de46200549918661d.png

 
  • 在当前所以算法中,具有极好的准确率
  • 能够有效的运行在大数据集上,处理具有高维特征的输入样本,而且不需要降维
  • 能够评估各个特征在分类问题上的重要性  

 

到此这篇机器学习算法(机器学习)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

  • 上一篇: 机器学习(机器学习 周志华)
  • 下一篇: 没有了
  • 版权声明


    相关文章:

  • 机器学习(机器学习 周志华)2024-12-20 08:00:07
  • 机器学习基础概念练习题与答案_机器学习基础概念练习题与答案2024-12-20 08:00:07
  • 机器学习基础(一)理解机器学习的本质_机器学习基础(一)理解机器学习的本质2024-12-20 08:00:07
  • 现代农业AI智能化升级之路:机器学习在现代农业领域的现状与未来发展_现代农业AI智能化升级之路:机器学习在现代农业领域的现状与未来发展2024-12-20 08:00:07
  • 机器学习期末考试2024-12-20 08:00:07
  • 【机器学习基础】正则化_正则化算法2024-12-20 08:00:07
  • 机器学习在安全领域的应用:从大数据中识别潜在安全威胁2024-12-20 08:00:07
  • 自动化机器学习流水线:基于Spring Boot与AI机器学习技术的融合探索2024-12-20 08:00:07
  • 博客目录与概览_参考文献目录怎么写2024-12-20 08:00:07
  • 机器学习基础知识点题库2024-12-20 08:00:07
  • 全屏图片