Sparkで走らせるプログラムの開発のため、WindowsのローカルでSparkを走る環境を用意したかったので作業内容をメモしておきます。
環境
- Windows 10 Version 1803
- WSLでUbuntu 16.04をインストール
以下手順に出てくるコマンドはWSLで走らせたbashに入力したものとなります。
インストール
まずはJavaをインストールします。
sudo apt-get install openjdk-8-jre
Apache Sparkの公式サイトからビルド済みのSparkをダウンロードしてきて解凍 し、適当な場所に置きます。
wget http://ftp.meisei-u.ac.jp/mirror/apache/dist/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz
tar xvf spark-2.3.1-bin-hadoop2.7.tgz
mkdir /etc/spark
mv spark-2.3.1-bin-hadoop2.7/ /etc/spark
.bashrcに下記を追加して完了です。
# Spark
export SPARK_HOME=/etc/spark/spark-2.3.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
spark-shellやspark-submitが正しく使えることが確認できました。
関連記事
用意した環境でTFIDFの計算をしてみました
Scala + SparkでDatasetを使ってTFIDFを計算する - 今日も窓辺でプログラム