本地调试Spark

虽然zeppelin可以方便我们在WEB上查询数据，但是我们不应该在云上在线写算法，正常的做法是：首先从HDFS中采样少量数据，在本地开发环境去针对样本数据书写算法，算法验收以后推到云上给数据分析人员使用。开发环境组成：

eclipse + python + pydev + spark

1.下载eclipse IDE

https://eclipse.org/downloads/

2.下载Python2.7 Windows版本

https://www.python.org/ftp/python/2.7.11/python-2.7.11.msi

3.安装eclipse插件pydev

4.下载spark，解压到固定目录

http://mirrors.noc.im/apache/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz

5.导入pyspark库 6.在pydev配置页配置spark环境变量 SPARK_HOME为必须配置的 HADOOP_HOME可不配（调试时会报一个与winutils.exe cannot find错误，并不影响调试，强迫症患者可以到https://github.com/srccodes/hadoop-common-2.2.0-bin 下载相关补丁）

在spark高级编程调试时，java底层会反向调用python，然后会报Cannot run program "python"导致程序中断，最简单的解决方法将python.exe复制到WINDOWS/system32/