今日も窓辺でプログラム

外資系企業勤めのエンジニアが勉強した内容をまとめておくブログ

Spark

Scala + SparkでDatasetを使ってTFIDFを計算する

はじめに 前回の記事ではSparkをローカルで試せる環境を用意しました。 Windows Subsystem for Linux(WSL)でSpark環境を構築してみる - 今日も窓辺でプログラム 今回は日本語のテキストファイルに含まれる単語数をカウントする処理をSpark上で行ってみたいと…

Windows Subsystem for Linux(WSL)でSpark環境を構築してみる

Sparkで走らせるプログラムの開発のため、WindowsのローカルでSparkを走る環境を用意したかったので作業内容をメモしておきます。 環境 Windows 10 Version 1803 WSLでUbuntu 16.04をインストール 以下手順に出てくるコマンドはWSLで走らせたbashに入力した…