一提到数据分析,有人就认为它应该是一个技术活,了解与学习数据分析,就是学习各种数据分析的软件、工具和技巧;有人认为它是一门研究如何计算的学问,学习数据分析就应该多研究数学;还有人认为它是处理业务问题的辅助手段,有业务需求,才有学习数据分析的心......
在刚接触数据科学时,新手常常被这些说法搞得有些迷惑,听起来都有道理,那么数据分析的定位到底应该是怎样的呢?
其实这些说法都对,但这些说法都不能代表数据分析的全部。数据分析更像是连接技术认知、理论认知与业务认知的桥梁。
即使不了解数据分析,我们也知道技术可以造福人类、科学理论可以改变世界,但技术与理论知识是如何造福人类、改变世界的,我们往往无从知晓。
而数据分析会清楚地告诉人们这些过程、这些细节、这些机理。它就如同一阵吹开了技术、理论、业务之间屏障的风,让科学技术与现实业务之间的关系非常清晰地展现出来,让每个人看到这些细节,都发出“原来如此”的感叹。
众所周知,如今是大数据时代,要怎么样做数据分析才能达到这种效果呢?今天异步君就带大家来学习一下权威的大数据处理方法。
大数据和普通数据的差别——3V特征
在正式学习大数据处理前,需要先明白大数据和普通数据的差别。
关于这一点,业界内有一个得到广泛认可的“大数据3V特征”可以很好地反映两者间的差别:大体量(Volume)、多维度(Variety)、高速度(Velocity)。
大体量即数据量大
传统数据分析面对的数据量大多集中在“成千上万”的规模,而互联网带来的“大数据”面对“成百万上千万”,甚至“成千万上亿”的数据量简直就是家常便饭。
对于大体量的数据,采用单机存储或集中式存储就显得笨拙了一些。即便传统的存储方式空间足够大,真的可以存放下这些数据,但要保证可以灵活读写与取用这些数据,使用这种方式就变得极其困难了。因而,各种分布式的存储与计算方案便成为了更好的选择。
多维度即数据种类丰富
如果仅是数据体量大,大数据发挥的作用还是很有限的。例如,若是仅知道全中国十几亿人的性别数据,虽然数据体量够大,但因为缺乏其他丰富的信息,这样大体量的数据除了得到一个准确分布值外,也别无他用。
大数据时代,不仅可以获得上千万、上亿级体量的数据,连同诸多的其他信息如物品特性、用户习惯、行为风格等均可以被获得与处理,这对数据分析理论与方法的发展又是一次巨大的推动。
高速度即处理时效快
大数据的发展,带来了对大数据分析与处理的需求,也促进了大数据应用需求的产生。
大数据相关的应用,既需要具备非常强大的、对大数据的价值挖掘能力,同时也需要具备尽可能快的大数据处理速度。
处理一份数据如果需要几小时或者几天时间,很有可能当数据处理完成后,数据的价值也就不存在了,正因如此,更高时效性成了生产生活中更进一步的追求。
对于时效性的追求,不仅保留了数据的价值,也极大地促使了大数据计算工具的进步与发展。
数据量越来越火,让数据存储更有压力;数据维度越来越多,让数据理论更有压力;数据时效性越来越高,让数据计算更有压力。
三方面的压力促使数据科学在工程上和理论上都有了革命性的突破与发展,直接地提升了人们的生产生活效率,降低了人们的生产生活成本。
大数据处理
了解完大数据与普通数据的差别,我们可以正式进入到大数据处理的学习了。
数据处理过程中的最常见的5个环节是:数据获取与存储、数据探索分析与可视化、数据预处理、分析建模、模型评估。把这5个环节掌握好,可以应对绝大多数的大数据处理情况。
数据获取与存储
即通过各种途径获取数据,并将这些数据进行有组织的存储。获取数据的方式有很多种,数据的原始形态可能各有千秋,但在进行接下来的分析与处理前,最好还是要尽可能保持这些数据的存储标准一致,这样才能达到最高的处理效率。
数据探索分析与可视化
即通过各种各样的方法,认识数据的一股形态。获取数据后,首要的任务就是充分认识数据,了解数据。以便更好地对接下来的数据建设方案进行有理有据的选择。
其中涉及多种多样的分析方法,也包括认识数据的一大利器,即数据可视化。探索分析是非常重要的,但也是常常被很多公司的很多所谓“专业分析者”所忽视的。
数据预处理(数据清洗)
数据预处理,通常是指特征工程。预处理的目的,一方面是清除因为系统错误、采集误差、操作失误等带来的错误数据和与模型输入有冲突的不合规数据;另一方面是提升特征质量,在尽可能形成更多有效特征的同时,让特征的规律能在分析与模型中得到最为充分的体现。
分析建模
即建立适当的模型,让数据真正“动起来”。建模的作用,是让数据以一定的实体形态,或一种复杂的关系形态,用业务驱动或者数据自驱动的方式,产出所需要的最终结果。
模型评估
即通过模型的产出,评价最终产出结果的质量和模型本身的优劣。
整个流程走下来大致如下图所示:
数据处理的一般环节
这些环节被编上了A~E的序号,大致反映了在处理数据时它们出现的先后顺序,但这并不是绝对的。
例如,在进行预处理的过程中,通过特征工程衍生出了许多新特征,此时业务上可能需要对这些新特征进行新一轮探索分析;
又如,当得到一批数据和项业务需求时,在探索分析进行到一半后,很有可能需要先建立个切合实际的业务模型,再进行接下来更深层次的探索。
在现实的业务场景中,这些数据处理环节有的可能会被多次用到,有的可能根本就不会被用到。至于哪些环节会被用到,哪些环节不会被用到,最终还是取决于业务需求和目标。
从以上的内容,不难发现每个环节可以学习的东西都太多了。比如数据建模,业务模型、数据模型和函数模型间有什么区别和联系?这些模型有哪些刻画方式?用什么工具去建模?
短短一篇文章又怎么说得完呢?想要详细了解数据分析,异步君推荐大家阅读《数据分析通识》。
图书推荐
数据分析通识
作者:途索
内容简介:
本书务实的数据分析科学技术、精彩的实际业务案例,很好地满足了从业者的实际需求。作者结合近几年的工作经验,将在实际业务场景中的案例进行脱敏抽象,置于本书的每章之中,从而形成的一本把数据分析科学技术应用于实际业务的数据分析类图书。
主要内容包括数据处理的抽象流程、数据系统的有机组成、数据获取、探索性数据分析、目的性数据分析、数据可视化、特征工程、模型、结果评价、数据应用等。
本书介绍了数据分析科学的许多方面,不但适合业务分析人员和数据分析与建模从业者学习,还可作为大专院校相关专业师生的学习用书,以及相关培训学校的教材。
到此这篇大神程序员怎么做大数据处理的?_大神程序员怎么做大数据处理的?的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/kjbd-skcl/5552.html