今日も窓辺でプログラム

外資系企業勤めのエンジニアが勉強した内容をまとめておくブログ

NLP

Scala + SparkでDatasetを使ってTFIDFを計算する

はじめに 前回の記事ではSparkをローカルで試せる環境を用意しました。 Windows Subsystem for Linux(WSL)でSpark環境を構築してみる - 今日も窓辺でプログラム 今回は日本語のテキストファイルに含まれる単語数をカウントする処理をSpark上で行ってみたいと…

Tensor2Tensorを使って独自データでseq2seqしてみる

はじめに Tensor2Tensorという、広く使われているモデルやデータセットが実装されているディープラーニングのライブラリがあります。 GitHubのREADMEによると、Tensor2TensorはGoogle Brainチームなどによって開発されているようで、中身はTensorFlowで実装…

SentencePieceを使用してRNN言語モデルを学習させてみる

はじめに 前回の記事ではpytorchのサンプルコードを参考にし、Wikipediaの記事の一部に対してRNN言語モデルを学習させてみました。 RNN言語モデルのpytorch実装をWikipediaの記事で学習させてみる - 今日も窓辺でプログラムその際にWikipediaの記事を単語に…

RNN言語モデルのpytorch実装をWikipediaの記事で学習させてみる

はじめに pytorchのGitHubに上がっているサンプルを見ていたら、RNNを使って言語モデルを実装しているものがありました。 examples/word_language_model at master · pytorch/examples · GitHub本当はいろんなネットワークを1から実装するのがよいのでしょう…

Wikipediaでword2vecの学習してEmbedding Projectorで可視化してみる

はじめに 前回の記事で、Wikipediaの全行に対してループを回せるような環境を用意しました。 www.madopro.netそのコードを利用して、今回はWikipediaの全記事をもとに gensimを使ってword2vecモデルを学習して、 その結果をEmbedding Projectorを使って可視化…

Wikipediaの日本語記事を全行を、分かち書きしてforループで回す

はじめに 機械学習の勉強をするにあたって、日本語Wikipedia全文を学習データにできるとよさそう、ということでデータのダウンロードから、分かち書きされた文章をPythonのfor文で回す段階にもっていく方法をまとめました。 はじめに 環境 コード Wikipedia…

RNN/LSTMを使った言語モデルをTensorFlowで実装してみる

はじめに 以前、TensorFlowのBasicRNNCellを使用して文字レベルの言語モデルを実装しました シンプルなRNNで文字レベルの言語モデルをTensorFlowで実装してみる - 今日も窓辺でプログラム今回は、前回のコードを少しだけいじって、単語レベルの言語モデルを…

TensorBoardのEmbedding Visualizationで単語ベクトルたちを可視化してみる

はじめに TensorFlowの0.12から、Embedding Visualizationという機能が追加されました。 単語や画像などを表現しているベクトルを可視化するためのツールです。公式サイトの説明ページを開いてみてください。Embeddingが3次元空間にきれいに可視化されていて…

TensorFlowでword2vecを使って単語ベクトルを学習する

今回やること 前回の記事で、RNNを使って文字レベルの言語モデルを実装しました。 シンプルなRNNで文字レベルの言語モデルをTensorFlowで実装してみる - 今日も窓辺でプログラム英語を対象にしたので入出力の次元は26文字+スペースの27次元で済んだのですが…

シンプルなRNNで文字レベルの言語モデルをTensorFlowで実装してみる

はじめに GoogleやMicrosoftなどがディープラーニングを使用した機械翻訳をリリースして各所で話題になっています。こんな感じで記事にもなっています。 Google翻訳、深層学習による新システムで人に迫る自然で正確な翻訳を実現 | マイナビニュース Google翻…