はじめに
機械学習の勉強をするにあたって、日本語Wikipedia全文を学習データにできるとよさそう、ということでデータのダウンロードから、分かち書きされた文章をPythonのfor文で回す段階にもっていく方法をまとめました。
- はじめに
- 環境
- コード
- Wikipedia全記事のダウンロード
- Wikipedia Extractor
- 行ごとにfor文を回す
- 分かち書きして一つのファイルに保存
- 実行してみる
- おわりに
- 参考ページ
- 関連記事
機械学習の勉強をするにあたって、日本語Wikipedia全文を学習データにできるとよさそう、ということでデータのダウンロードから、分かち書きされた文章をPythonのfor文で回す段階にもっていく方法をまとめました。
scikit-learnのtrain_test_splitという関数を使うと、データセットを訓練データをテストデータに簡単に分割できます。
同じくscikit-learnに付属している数字手書き文字のデータセットを使用した例を紹介します。
前回に引き続き、Peters' NoteのPart 4 Vectorizationを見ていきます。
今回の記事では2クラス分類問題に対して、
を順に実装していきます。