在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,将结果按照一定的标准进行统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的方式将结果展现给终端用户。
数据抽取与集成
- 对所需数据源的数据进行抽取和集成,从中提取出数据的实体和关系,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时,需要对数据进行清洗,保证数据质量及可信性。
- 数据抽取与集成方式大致分为4中类型
基于物化或ETL方法的引擎
基于联邦数据库或者中间件方法的引擎
基于数据流方法的引擎
基于搜索引擎的方法
数据分析
- 概念
数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。从异构数据源抽取和集成的数据构成了数据分析的原始数据。根据不同应用的需求可以从这些数据中选择全部或部分进行分析。 - 数据分析技术面临的新挑战
1)数据量大并不一定以为着数据价值的增加,相反这往往意味着数据噪音的增多。
2)大数据时代的算法需要进行调整。算法需要在实时性和准确率之间取得一个平衡。实现成为可以并发执行的算法。
3)数据结果的衡量标准。
数据解释
- 对分析的结果解释。
1)引入可视化技术。将分析结果以可视化的方式向用户展示、可以使用户更易理解和接受。常见的可视化技术:标签云、历史流、空间信息流
2)让用户能够在一定程度上了解和参与具体的分析过程。人机交互技术。数据溯源技术追溯整个数据分析的过程,帮助用户理解结果。
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/kjbd-skcl/5576.html