安装Spark
参考文档:http://spark.apache.org/docs/latest/
后文安装的zeppelin自身集成了spark,所以该步骤原则上是可以跳过的。
1.下载安装
> cd /tmp
> wget http://mirrors.noc.im/apache/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz
> tar -xf spark-1.6.1-bin-hadoop2.6.tgz -C /home/bigdata
> cd /home/bigdata/spark-1.6.1-bin-hadoop2.6/
> bin/pyspark
2.spark-RDD 官方文档 http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD 3.dataframe 官方文档 http://spark.apache.org/docs/latest/sql-programming-guide.html
spark最核心的2个功能是RDD和dataframe,需要仔细研读。