千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

当前位置:首页  >  技术干货  > Spark-Streaming的基本原理以及预写日志机制和checkpoint(二)

Spark-Streaming的基本原理以及预写日志机制和checkpoint(二)

来源:千锋教育
发布人:qyf
时间: 2022-08-31 16:08:06 1661933286

Spark-Streaming的基本原理

  有两种数据需要被进行checkpoint:

  1.元数据checkpoint—-将定义了流式计算逻辑的信息,报错到容错的存储系统上,比如HDFS

  当运行Spark—Streaming应用程序的Driver进程所在的节点失败时,该信息可以用于进行恢复。

  元数据信息包括了:

  1.1:配置信息—创建Spark-Streaming应用程序的配置信息,比如SparkConf

  1.2:DStream的操作信息—-定义了Spark-Stream应用程序的计算逻辑的DStream操作信息

  1.3:未处理的batch信息—-哪些job正在排队,还没处理的batch信息。

  2.数据checkpoint—将实时计算过程中产生的RDD的数据保存到可靠的存储系统中

  对于一些将多个batch的数据进行聚合的,有状态的transformation操作,这是非常有用的,

  在这种tranformation操作中,生成的RDD是依赖与之前的batch的,这会导致随着时间的推移,Rdd的依赖。

  链条越来越长,要避免由于依赖链条越来越长,导致一起变得越来越长的失败恢复时间,有状态的transformation

  操作执行过程中间产生的RDD,会定期的被checkpoint盗可靠的存储系统上,比如HDFS,从而削减RDD的依赖链条,进而缩短失败恢复时,RDD的回复时间。

  更多关于“云计算培训”的问题,欢迎咨询千锋教育在线名师。千锋教育多年办学,课程大纲紧跟企业需求,更科学更严谨,每年培养泛IT人才近2万人。不论你是零基础还是想提升,都可以找到适合的班型,千锋教育随时欢迎你来试听。

tags:
声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。
10年以上业内强师集结,手把手带你蜕变精英
请您保持通讯畅通,专属学习老师24小时内将与您1V1沟通
免费领取
今日已有369人领取成功
刘同学 138****2860 刚刚成功领取
王同学 131****2015 刚刚成功领取
张同学 133****4652 刚刚成功领取
李同学 135****8607 刚刚成功领取
杨同学 132****5667 刚刚成功领取
岳同学 134****6652 刚刚成功领取
梁同学 157****2950 刚刚成功领取
刘同学 189****1015 刚刚成功领取
张同学 155****4678 刚刚成功领取
邹同学 139****2907 刚刚成功领取
董同学 138****2867 刚刚成功领取
周同学 136****3602 刚刚成功领取
相关推荐HOT