Sparkで走らせるプログラムの開発のため、WindowsのローカルでSparkを走る環境を用意したかったので作業内容をメモしておきます。

環境

Windows 10 Version 1803
WSLでUbuntu 16.04をインストール

以下手順に出てくるコマンドはWSLで走らせたbashに入力したものとなります。

インストール

まずはJavaをインストールします。

sudo apt-get install openjdk-8-jre

Apache Sparkの公式サイトからビルド済みのSparkをダウンロードしてきて解凍し、適当な場所に置きます。

wget http://ftp.meisei-u.ac.jp/mirror/apache/dist/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz
tar xvf spark-2.3.1-bin-hadoop2.7.tgz
mkdir /etc/spark
mv spark-2.3.1-bin-hadoop2.7/ /etc/spark

.bashrcに下記を追加して完了です。

# Spark
export SPARK_HOME=/etc/spark/spark-2.3.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

spark-shellやspark-submitが正しく使えることが確認できました。

用意した環境でTFIDFの計算をしてみました
Scala + SparkでDatasetを使ってTFIDFを計算する - 今日も窓辺でプログラム

今日も窓辺でプログラム

外資系企業勤めのエンジニアが勉強した内容をまとめておくブログ

Windows Subsystem for Linux(WSL)でSpark環境を構築してみる

環境

インストール

関連記事