本地调试Spark

虽然zeppelin可以方便我们在WEB上查询数据,但是我们不应该在云上在线写算法,正常的做法是:首先从HDFS中采样少量数据,在本地开发环境去针对样本数据书写算法,算法验收以后推到云上给数据分析人员使用。 开发环境组成:

eclipse + python + pydev + spark

1.下载eclipse IDE

https://eclipse.org/downloads/

2.下载Python2.7 Windows版本

https://www.python.org/ftp/python/2.7.11/python-2.7.11.msi

3.安装eclipse插件pydev

4.下载spark,解压到固定目录

http://mirrors.noc.im/apache/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz

5.导入pyspark库 6.在pydev配置页配置spark环境变量 SPARK_HOME为必须配置的 HADOOP_HOME可不配(调试时会报一个与winutils.exe cannot find错误,并不影响调试,强迫症患者可以到https://github.com/srccodes/hadoop-common-2.2.0-bin 下载相关补丁)

在spark高级编程调试时,java底层会反向调用python,然后会报Cannot run program "python"导致程序中断,最简单的解决方法将python.exe复制到WINDOWS/system32/