在大数据与算法不断发展的今天,“人工智能”、“机器学习”的相关话题讨论日趋火热,而机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。
人邮君就带大家快速了解一下机器学习的相关概念吧~
什么是机器学习?
机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式, 并将现有内容进行知识结构划分来有效提高学习效率。机器学习通过算法学习数据的模式,据此对新的数据进行预测。
机器学习为何如此受关注?
其实机器学习的基础理论和算法本身并不是新出现的。无论是过去还是现在,计算机都特别擅长处理重复的任务。所以计算机能够比人类更高效地读取大量的数据、学习数据的特征并从中找出数据的模式。这样的任务也被称为机器学习或者模式识别,以前人们就有用计算机处理这种任务的想法,并为此进行了大量的研究,也开发了很多代码。现在机器学习能做的事情更多了。虽然不可否认这受益于计算机理论的发展,不过我认为主要还是归功于以下两点。
- 具备了能够收集大量数据的环境
- 具备了能够处理大量数据的环境
由于互联网的发展,个人行为和生活的一部分已经被数字化,规模大到无法想象的数据也随之而生。不仅是数据量变多了,数据的种类也增加了。其中包括 Web 网站的访问记录、博客上发布的博文和照片、邮件的发送记录、电商网站的购买记录等,数不胜数。多亏有了互联网,我们才可以轻松获取大量这样的数据。
而且现在计算机的性能也越来越高,处理同样多的数据所需的时间变得越来越短,硬盘和 SSD 这样的存储设备也越来越便宜。正因为机器学习具备了能够收集和处理大量数据的环境,所以人们对机器学习的兴趣越来越高。机器学习不仅可以应用在那些方便我们日常生活的应用程序上,还可以帮助商务人士做决策,或者应用在医疗、金融、安全等其他各种领域。
机器学习擅长什么?
回归(regression)
分类(classification)
聚类(clustering)
- 回归算法
回归就是在处理连续数据如时间序列数据时使用的技术。
时间序列数据就是那些连续观测到的因时而异的数据。比如股价、身高体重的数据。
从这样的数据中学习它的趋势,求出“明天的股价会变为多少”“今后的趋势会怎样”的方法就是回归,它就是一种机器学习算法。
- 分类算法
分类算法最简单的理解就是给数据贴标签,比如生活中邮件APP自动鉴别垃圾邮件就可以归类为分类问题。分类算法根据邮件的内容,以及这封邮件是否属于垃圾邮件这些数据来进行学习。
像这种只有两个类别的问题称为二分类,有三个及以上的问题称为多分类,比如数字的识别就属于多分类问题。
- 聚类算法
聚类与分类相似,却又有些不同。聚类考虑的问题是:假设在有 100 名学生的学校进行摸底考试,然后根据考试成绩把 100 名学生分为几组,根据分组结果,我们能得出某组偏重理科、某组偏重文科这样有意义的结论。这里用来学习的数据就是每个学生的考试分数,比如下面这张表
它与分类的区别在于数据带不带标签。也有人把标签称为正确答案数据。比如刚才的垃圾邮件鉴别问题,除了邮件内容以外,数据集中还包含了标记邮件是否为垃圾邮件的数据,而这个考试分数的数据里并没有与分类有关的标签,仅仅包含了编号和分数的数据而已。
使用有标签的数据进行的学习称为有监督学习,与之相反,使用没有标签的数据进行的学习称为无监督学习。回归和分类是有监督学习,而聚类是无监督学习。
以上内容出自我社近期新书《白话机器学习的数学》,书中采用对话形式介绍包括回归、分类、模型评估、python代码实现等机器学习内容,可以作为机器学习的科普读物或是入门读物。感兴趣的朋友可以购买阅读哦~
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/rgzn-jqxx/4544.html