当前位置：首页 > 资讯 > 计算机/互联网 > 互联网

Spark 集群模式概述

时间：2019-01-23 18:39 编辑：2KB 来源：2KB.COM 阅读：304
扫一扫，手机访问

分享
扫描二维码，分享到微信打开微信
使用"扫一扫"
再点击微信界面右上角三个点标志
分享到微信朋友和朋友圈。

摘要：

Apache Spark 英文原文：Cluster Mode Overview

这篇文章简单回顾下Spark如何在集群上运行，以使其中的组件更易理解。

组件

Spark应用在集群上以独立的进程集合运行，在你的主程序（称作驱动程序）中以SparkContext对象来调节。特别的，为了在集群上运行，SparkContext可以与几个类型的集群管理器（Spark自身单独的集群管理器或者Mesos/YARN）相连接，这些集群管理器可以在应用间分配资源。一旦连接，Spark需要在集群上的线程池子节点，也就是那些执行计算和存储应用数据的工作进程。然后，它将把你的应用代码（以JAR或者Python定义的文件并传送到SparkContext）发送到线程池。最后，SparkContext发送任务让线程池运行。

关于这个架构有几个有用的地方需要注意：

各个应用有自己的线程池进程，会在整个应用的运行过程中保持并在多个线程中运行任务。这样做的好处是把应用相互孤立，既在调度方面（各个驱动调度它自己的任务）也在执行方面（不同应用的任务在不同的JVM上运行）。然而，这也意味着若不把数据写到额外的存储系统的话，数据就无法在不同的Spark应用间（SparkContext的实例）共享。
对于潜在的集群管理器来说，Spark是不可知的。只要它需要线程池的进程和它们间的通信，那么即使是在也支持其他应用的集群管理器（例如，Mesos/YARN）上运行也相对简单。
因为驱动在集群上调度任务，它应该运行接近到工作节点，在相同的局域网内更好。如果你想对远程的集群发送请求，较好的选择是为驱动打开一个RPC，让它就近提交操作而不是运行离工作节点很远的驱动。

集群管理类型

系统目前支持3种集群管理：

单例模式-一种简单的集群管理，其包括一个很容易搭建集群的Spark
Apache Mesos模式-一种通用的集群管理,可以运行Hadoop MapReduce和服务应用的模式
Hadoop YARN模式-Hadoop2.0中的资源管理模式

其实，在Amazon EC2(亚马逊弹性计算云)中Spark的EC2启动脚本可以很容易的启动单例模式。

给集群发布代码

给集群发布代码的一种推荐的方式是通过SparkContext的构造器，这个构造器可以给工作节点生成JAR文件列表(Java/Scala)或者.egg文件和.zip包文件(Python)。你也可以执行SparkContext.addJar和addFile来动态的创建发送文件。

监控器

每个驱动程序有一个web UI，典型的是在4040端口，你可以看到有关运行的任务、程序和存储空间大小等信息。你可以在浏览器中输入简单的url方式来访问：http://<驱动节点>：4040.监控器也可以指导描述其它监控器信息。

任务调度

Spark可以通过在应用外(集群管理水平)和应用里(如果在同一个SparkContext中有多个计算指令)资源分配。你可以在这里了解更多任务调度的细节。

词汇表

你将在集群概念中看到下面表中总结的术语：

术语	意思
应用	在Spark上构建的程序. 由驱动程序和子执行集群.
驱动程序	运行man函数的进程，同时也创建SparkContext
集群管理员	在获得资源集群上的扩展服务(举例. 单例模式管理员, Mesos, YARN)
工作员节点	任何在集群中可以运行应用的节点
执行者	在工作员节点中为应用所启动的一个进程，它可以运行任务以及可以在内存或是硬盘中保存数据。每一个应用都有属于自己的执行者
任务	一个可以给执行者发送数据的工作单元
工作	一个由多任务组成的并行计算，并能从Spark动作中获得回应 (举例.保存，收集); 你可以在驱动日志中看到这个术语
阶段	每个工作被分为很多小的任务集合互称为阶段 (和MapReduce中的map和reduce阶段相似); 你可以在驱动日志中看到这个术语

本文中的所有译文仅用于学习和交流目的，转载请务必注明文章译者、出处、和本文链接。 2KB翻译工作遵照 CC 协议，如果我们的工作有侵犯到您的权益，请及时联系我们。

2KB项目（www.2kb.com，源码交易平台）,提供担保交易、源码交易、虚拟商品、在家创业、在线创业、任务交易、网站设计、软件设计、网络兼职、站长交易、域名交易、链接买卖、网站交易、广告买卖、站长培训、建站美工等服务

全部评论(0)

上一篇：写给精明 Java 开辟者的顶级测试技能
下一篇：使用 Countly 来分析 Apple Watch 统计数据

最新发布的资讯信息
【计算机/互联网|】Nginx出现502错误(2020-01-20 21:02)
【计算机/互联网|】网站运营全智能软手V0.1版发布(2020-01-20 12:16)
【计算机/互联网|】淘宝这是怎么了？(2020-01-19 19:15)
【行业动态|】谷歌关闭小米智能摄像头，因为窃听器显示了陌生人家中的照片(2020-01-15 09:42)
【行业动态|】据报道谷歌新闻终止了数字杂志，退还主动订阅(2020-01-15 09:39)
【行业动态|】康佳将OLED电视带到美国与LG和索尼竞争(2020-01-15 09:38)
【行业动态|】2020年最佳AV接收机(2020-01-15 09:35)
【行业动态|】2020年最佳流媒体设备：Roku，Apple TV，Firebar，Chromecast等(2020-01-15 09:31)
【行业动态|】CES 2020预览：更多的流媒体服务和订阅即将到来(2020-01-08 21:41)
【行业动态|】从埃隆·马斯克到杰夫·贝佐斯，这30位人物定义了2010年代(2020-01-01 15:14)

商品推荐
友价商城交易源代码插件-自动生成sitemap插件
￥30.00
百度链接主动推送和熊掌号推送通用版 - 支持任意网站无需插件
￥15.00
2KB网站地图助手/一键生成Sitemap/过滤全站死链/生成全站外链
￥10.00
网站SEO优化分析/死链检测/外链检测/Sitemap生成/抓取分析
￥100.00
YSZI.COM - 新闻自媒体导航平台项目众筹
￥1000.00

资讯排行榜
更多>>