安装Spark

参考文档:http://spark.apache.org/docs/latest/

后文安装的zeppelin自身集成了spark,所以该步骤原则上是可以跳过的。

1.下载安装

> cd /tmp
> wget http://mirrors.noc.im/apache/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz
> tar -xf spark-1.6.1-bin-hadoop2.6.tgz -C /home/bigdata
> cd /home/bigdata/spark-1.6.1-bin-hadoop2.6/
> bin/pyspark

2.spark-RDD 官方文档 http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD 3.dataframe 官方文档 http://spark.apache.org/docs/latest/sql-programming-guide.html

spark最核心的2个功能是RDD和dataframe,需要仔细研读。