spark工作原理和介绍

如题所述

第1个回答 2022-06-14

https://zhuanlan.zhihu.com/p/34436165
https://zhuanlan.zhihu.com/p/70424613

Spark 是专为大规模数据处理而设计的快速通用的计算引擎。是Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

1.RDD：是弹性分布式数据集（Resilient Distributed Dataset）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。
2.DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系。如果一个有向图无法从某个顶点出发经过若干条边回到该点，则这个图是一个有向无环图（DAG图）。
3.Driver Program：控制程序，负责为Application构建DAG图。
4.Cluster Manager：集群资源管理中心，负责分配计算资源。
5.Worker Node：工作节点，负责完成具体计算。
6.Executor：是运行在工作节点（Worker Node）上的一个进程，负责运行Task，并为应用程序存储数据。
7.Application：用户编写的Spark应用程序，一个Application包含多个Job。
8.Job：作业，一个Job包含多个RDD及作用于相应RDD上的各种操作。
9.Stage：阶段，是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为“阶段”。
10.Task：任务，运行在Executor上的工作单元，是Executor中的一个线程。

1.构建Spark Application的运行环境，启动SparkContext
2.SparkContext向资源管理器（可以是Standalone，Mesos，Yarn）申请运行Executor资源，并启动StandaloneExecutorbackend，
3.Executor向SparkContext申请Task
4.SparkContext将应用程序分发给Executor
5.SparkContext构建成DAG图，将DAG图分解成Stage、将Taskset发送给Task Scheduler，最后由Task Scheduler将Task发送给Executor运行
6.Task在Executor上运行，运行完释放所有资源

相似回答

Spark原理 | 内存管理答：Spark 1.6 之后默认为统一管理（UnifiedMemoryManager）方式，1.6 之前采用的静态管理（StaticMemoryManager）方式仍被保留，可通过配置 spark.memory.useLegacyMode=true 参数启用静态内存管理方式。下面我们介绍下两种内存管理模型的进化。在 Spark 最初采用的静态内存管理机制下，存储内存、执行内存和其他内...

科普Spark,Spark是什么,如何使用Spark答：Spark streaming: 构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断（几秒），以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上，一方面是因为Spark的低延迟执行引擎（100ms+）可以用于实时计算，另一方面相比基于Record的其它处理框架（如Storm），RDD数...

关于spark下面说法正确的是答：基本原理 SparkStreaming：构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片段（几秒），以类似batch批量处理的方式来处理这小部分数据。SparkStreaming构建在Spark上，一方面是因为Spark的低延迟执行引擎（100ms＋），虽然比不上专门的流式数据处理软件，也可以用于实时计算，另一方面...

spark机器学习-聚类答：spark机器学习-聚类聚类算法是一种无监督学习任务，用于将对象分到具有高度相似性的聚类中，聚类算法的思想简单的说就是物以类聚的思想，相同性质的点在空间中表现的较为紧密和接近，主要用于数据探索与异常检测，最常用的一种聚类算法是K均值(K-means)聚类算法算法原理 kmeans的计算方法如下：1 选取...

spark光谱分析原理是什么答：spark光谱分析的分析原理是将光源辐射出的待测元素的特征光谱通过样品的蒸汽中待测元素的基态原子所吸收，由发射光谱被减弱的程度，进而求得样品中待测元素的含量，它符合郎珀-比尔定律 A= -lg I/I o= -LgT = KCL 式中I为透射光强度，I0为发射光强度，T为透射比，L为光通过原子化器光程由于L...

Spark的stage amp;job amp;task 到底是什么以及划分原理答：spark的意思是火星。我们学化学的时候做过一个实验：把细铁丝绕成螺旋状，一端系在一根粗铁丝上，另一端系上一根火柴．点燃火柴后迅速把铁丝连同火柴一起插入一瓶纯净的氧气里，集气瓶底部预先洒少许水或在瓶底铺一薄层细沙，可以看到细铁丝在氧气里剧烈燃烧，火星四射，生成了黑色固体——四氧化三铁，...

大家正在搜

sparkonyarn工作原理简述spark架构及工作原理 kafka的工作原理 apache spark介绍简述mapreduce工作原理 sqoop工作原理简述hadoop工作原理 Hadoop工作原理 yarn工作原理