pyspark: среда локального режима — сборка и использование

Spark
pyspark: среда локального режима — сборка и использование

предисловие

spark不一定非要跑在hadoop集群上,可以在本地,起多个线程的方式来执行spark任务。
将Spark的应用程序以多线程的方式直接运行在本地,一般都是为了方便调试。
本地模式分三类:
    local:只启动一个executor
    local[k]:启动k个executor
    local[*]:启动跟cpu数目相同的 executor

1/скачать

官方下载地址:spark.apache.org/downloads.h… ,选择Spark版本和对应的Hadoop版本后再下载:

2/ Разархивируйте установочный пакет:

 # tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz
     
     

3/Настроить переменные среды

  vim /etc/profile
  export SPARK_HOME=/home/hadoop/spark-2.2.3-bin-hadoop2.6
  export  PATH=$PATH:${SPARK_HOME}/bin
  source /etc/profile
  
  

4/spark

 local模式是最简单的一种运行方式,
 它采用单节点多线程方式运行,不用部署,开箱即用,适合日常测试开发。
 
 <1>ala语言开发程序,则在spark安装目录的bin目录下启动spark-shell
    spark-shell --master local[2]

    local:只启动一个工作线程;
    local[k]:启动k个工作线程;
    local[*]:启动跟cpu数目相同的工作线程数。
    
这是成功启动spark之后的界面,我们可以看到spark的版本。
scala是一门编程语言,spark默认的编程语言,当然我们要在python中启动spark也是可以的.

<2你是使用python开发程序,则到安装目录bin目录下,
./pyspark 
这样就启动了 

image.png