当前位置:网站首页 > 大数据处理 > 正文

流式大数据处理的三种框架对比分析_流式大数据处理的三种框架对比分析

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。

Apache Storm

在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(workernode)执行。一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt则负责转发数据流,在bolt中可以完成计算、过滤等操作,bolt自身也可以随机将数据发送给其他bolt。在storm中,每个都是tuple是不可变数组,对应着固定的键值对。

Apache Spark

Spark Streaming是核心Spark API的一个扩展,它并不会像Storm那样一次一个地处理数据流,而是在处理前按时间间隔预先将其切分为一段一段的批处理作业。Spark针对持续性数据流的抽象称为DStream(DiscretizedStream),一个DStream是一个微批处理(micro-batching)的RDD(弹性分布式数据集);而RDD则是一种分布式数据集,能够以两种方式并行运作,分别是任意函数和滑动窗口数据的转换。

 

到此这篇流式大数据处理的三种框架对比分析_流式大数据处理的三种框架对比分析的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 开源大数据处理引擎汇总(一)_开源大数据处理引擎汇总(一)2024-10-30 15:56:16
  • Pandas 如何处理超大规模数据_Pandas 如何处理超大规模数据2024-10-30 15:56:16
  • SQL中limit的用法_SQL中limit的用法2024-10-30 15:56:16
  • 大数据处理的基本流程步骤_大数据处理的基本流程步骤2024-10-30 15:56:16
  • 数据分析之数据预处理、分析建模、可视化_数据分析之数据预处理、分析建模、可视化2024-10-30 15:56:16
  • 大数据处理流程_大数据处理流程2024-10-30 15:56:16
  • 了解数据治理体系化建模_了解数据治理体系化建模2024-10-30 15:56:16
  • 大数据处理的开源框架:概述_大数据处理的开源框架:概述2024-10-30 15:56:16
  • 大数据处理分为哪些步骤_大数据处理分为哪些步骤2024-10-30 15:56:16
  • 《企业应用架构模式》学习指南_《企业应用架构模式》学习指南2024-10-30 15:56:16
  • 全屏图片