Spark 应用程序如何执行？

This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

Spark 应用程序如何执行？

Spark 查询执行时将经历以下步骤：

创建逻辑计划
将逻辑计划转换为物理规划
生成代码
在集群上执行任务

Apache Spark 提供 Web UI，您可以使用此 UI 以有向无环图 (DAG) 的形式查看这些计划的可视化表示。通过 Web UI，您还可以查看计划的执行方式并监控 Spark 集群上的状态和资源消耗情况。您可以使用以下 URL 实时查看 Web UI：http://<driver-node>:4040。您可以在执行后通过 Spark 的历史记录服务器（网址为 http://<server-url>:18080）查看 Web UI，前提是应用程序的事件日志存在。

第一步是为提交的 SQL 或 DataFrame 创建逻辑计划。逻辑计划显示了将要执行的一组抽象 transformation 操作。Spark Analyzer 使用元数据目录解析表格和列，然后将计划传递给 Catalyst 优化器，接着优化器会使用 filter push down 等规则来优化计划。

action 操作将触发转换，以将逻辑 DAG 转换为物理执行计划。物理规划使用针对不同执行策略的成本模型来标识将执行计划的资源。此过程的示例包括 broadcast join 与 hash join。

查看物理规划

您可通过调用 explain(“formatted”) 方法来查看 DataFrame 的格式化物理规划。在下方的物理规划中，df2 的 DAG 由 Scan csv 文件、对 day_of_week 的 Filter 以及针对 hour、fare_amount 和 day_of_week 的 Project（选择列）组成。

val df = spark.read.option("inferSchema", "false") .option("header", true).schema(schema).csv(file)
val df2 = df.select($"hour", $"fare_amount", $"day_of_week").filter($"day_of_week" === "6.0" )
df2.show(3)
result:
+----+-----------+-----------+
|hour|fare_amount|day_of_week|
+----+-----------+-----------+
|10.0| 11.5| 6.0|
|10.0| 5.5| 6.0|
|10.0| 13.0| 6.0|
+----+-----------+-----------+
df2.explain(“formatted”)
result:
== Physical Plan ==
* Project (3)
+- * Filter (2)
+- Scan csv (1)

(1) Scan csv
Location: [dbfs:/FileStore/tables/taxi_tsmall.csv]
Output [3]: [fare_amount#143, hour#144, day_of_week#148]
PushedFilters: [IsNotNull(day_of_week), EqualTo(day_of_week,6.0)]

(2) Filter [codegen id : 1]
Input [3]: [fare_amount#143, hour#144, day_of_week#148]
Condition : (isnotnull(day_of_week#148) AND (day_of_week#148 = 6.0))

(3) Project [codegen id : 1]
Output [3]: [hour#144, fare_amount#143, day_of_week#148]
Input [3]: [fare_amount#143, hour#144, day_of_week#148]

您可以在 Web UI 的“SQL”选项卡上查看有关 Catalyst 所生成计划的更多详细信息。单击查询描述链接即可显示 DAG 和查询详情。

在下方代码的解释行之后，我们看到 df3 的物理规划由 Scan、Filter、Project、HashAggregate、Exchange 和 HashAggregate 组成。Exchange 是由 groupBy transformation 操作引起的 shuffle 操作。在对 Exchange 中的数据进行混洗之前，Spark 会对每个分区执行哈希聚合。Exchange 之后是对先前的子聚合执行哈希聚合。请注意，若已缓存 df2，我们将在此 DAG 中进行内存扫描，而非文件扫描。

val df3 = df2.groupBy("hour").count
df3.orderBy(asc("hour"))show(5)
result:
+----+-----+
|hour|count|
+----+-----+
| 0.0| 12|
| 1.0| 47|
| 2.0| 658|
| 3.0| 742|
| 4.0| 812|
+----+-----+

df3.explain
result:
== Physical Plan ==
* HashAggregate (6)
+- Exchange (5)
   +- * HashAggregate (4)
      +- * Project (3)
         +- * Filter (2)
            +- Scan csv (1)
(1) Scan csv
Output [2]: [hour, day_of_week]
(2) Filter [codegen id : 1]
Input [2]: [hour, day_of_week]
Condition : (isnotnull(day_of_week) AND (day_of_week = 6.0))
(3) Project [codegen id : 1]
Output [1]: [hour]
Input [2]: [hour, day_of_week]
(4) HashAggregate [codegen id : 1]
Input [1]: [hour]
Functions [1]: [partial_count(1) AS count]
Aggregate Attributes [1]: [count]
Results [2]: [hour, count]
(5) Exchange
Input [2]: [hour, count]
Arguments: hashpartitioning(hour, 200), true, [id=]
(6) HashAggregate [codegen id : 2]
Input [2]: [hour, count]
Keys [1]: [hour]
Functions [1]: [finalmerge_count(merge count) AS count(1)]
Aggregate Attributes [1]: [count(1)]
Results [2]: [hour, count(1) AS count]

单击此查询的 SQL 选项卡链接将显示该作业的 DAG。

选中“Expand details”（展开详细信息）复选框，即可显示每个阶段的详细信息。第一个代码块 WholeStageCodegen 将多个运算符（scan csv、filter、project 和 HashAggregate）共同编译为单个 Java 函数，以提高性能。下方屏幕中显示了行数和溢出大小等指标。

第二个代码块标题为 Exchange，其显示了 shuffle Exchange 所使用的指标，具体包括写入的 shuffle 记录数量和数据大小总计。

在集群上执行任务

第三步是在集群上安排并执行任务。

调度器会根据 transformation 操作将图形分为多个阶段。窄依赖 transformation（无数据移动的 transformation）将并入（流程化处理）单个阶段。此示例的物理规划分为两个阶段，并含有第一阶段中 Exchange 之前的所有内容。Spark 在运行时执行进一步优化，包括 Whole-Stage Java Code Generation。其通过为 SQL 查询中的一组运算符（如有可能）按字节码生成单个经优化的 Java 函数，而非为每个运算符生成迭代器代码，来优化 CPU 使用率。

每个阶段均由 DataFrame 分区的任务组成，可以并行执行相同计算。

接下来，调度器将阶段任务集提交给任务调度器，任务调度器再将任务发送给执行程序以开始运行。

作业完成后，根据操作的不同，操作值将返回至驱动或写入磁盘。

单击 Web UI 的“Jobs”（作业）选项卡，即可查看有关作业进度的详细信息，包括具体阶段和任务。下例中的作业包含两个阶段，其中有两个任务处于 shuffle 前的阶段，还有 200 个任务处于 shuffle 后的阶段。任务数量与分区对应。在第一阶段读取文件后，将有两个分区。

执行 shuffle 后，默认分区数为 200 （您可以使用 spark.sql.shuffle.partitions 属性配置在混洗数据时要使用的分区数）。

总结

在本章中，我们为您介绍了 Spark，演示了其在集群上执行代码的机制，并说明了如何使用 Spark Web UI 对执行情况进行监控。在调试、分析和调整应用性能时，请务必了解 Spark 如何运行应用程序。

Data Science ebook