2017-02-02

Pythonの標準出力でのUnicodeEncodeErrorの原因となる文字を置換する方法

Python

標準出力でのUnicodeEncodeError
標準出力はio.TextIOWrapperで管理されている
解決方法
参考記事

標準出力でのUnicodeEncodeError

Pythonで日本語の処理をしていると、UnicodeEncodeErrorに出くわすことがあるかと思います。

例えば私が今回遭遇したのは、print()で標準出力に表示しようとしたテキストに「！」マークが二つ並んだ文字、Unicodeでいうと\u203cが含まれていたために、次のようなエラーが表示され処理が止まってしまいました。

再現するとこんな感じです。

>>> print('こんにちは\u203c')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'cp932' codec can't encode character '\u203c' in position 0: illegal multibyte sequence

標準出力はio.TextIOWrapperで管理されている

私の使っているPython 3.5.2では、sys.stdoutはio.TextIOWrapperというオブジェクトです。

>>> import sys
>>> sys.stdout
<_io.TextIOWrapper name='<stdout>' mode='w' encoding='cp932'>

このio.TextIOWrapperは、errorsという引数を渡すことでエンコードやデコード時のエラーの処理方法を指定することができます。
公式ドキュメントにあるように、次のようなオプションがサポートされています。

引数の値	意味
strict	例外を発生させる
ignore	無視する
replace	'?'などのマーカーで置き換える
backslashreplace	バックスラッシュ付きのエスケープシーケンスに置き換える
xmlcharrefreplace	XMLの文字参照に置き換える
namereplace	\N{...}エスケープシーケンスに置き換える

他の形式も指定できるようですが、詳細はドキュメントを当たってください。

解決方法

例えば不正な文字を'?'マークに置き換えるのであれば、標準出力(sys.stdio)を次のようなio.TextIOWrapperに置き換えてあげます。

>>> import sys
>>> import io
>>> sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding=sys.stdout.encoding, errors="replace")
>>> print('こんにちは\u203c')
こんにちは?

これで、最後の文字が'?'に置換して表示されました。

ちなみに、backslashreplaceを指定するとこんな感じです。

>>> sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding=sys.stdout.encoding, errors="backslashreplace")
>>> print('こんにちは\u203c')
こんにちは\u203c

元の文字の情報を保持しておきたいときは、backslashreplaceやxmlcharrefreplaceのほうが良いですね。

参考記事

sys.stdout のエンコードを変更する in Python3.0 - @kei10in の日記

2017-01-28

CNTKでロジスティック回帰を試してみました

機械学習 CNTK

はじめに

CNTKのチュートリアルの一つ目の題材がロジスティック回帰だったので、チュートリアルに沿ってロジスティック回帰をしてみます。
今回は、下記のチュートリアルを追いかけたものを日本語で解説しているような記事になります。
CNTK/CNTK_101_LogisticRegression.ipynb at v2.0.beta9.0 · microsoft/CNTK · GitHub

CNTKの環境構築は前回の記事で行っているので、環境が整っていない方はこちらもご参照ください。
www.madopro.net

(2017/1/30追記)
なぜかチュートリアルの日本語版が存在していました。ほかの言語は用意されていないっぽいのに、なぜ。

2017-01-28

CNTKの環境構築と動作確認をしてみる

機械学習 CNTK

はじめに

GoogleがTensorFlowというディープラーニングのフレームワークを提供しているように、MicrosoftもCNTKというディープラーニングのフレームワークを提供しています。
普段はTensorFlowを触っていたのですが、仕事でCNTKも触らなきゃいけなさそうなので、自宅のPCで環境構築と動作確認をしてみます。

2017-01-18

TensorBoardのEmbedding Visualizationで単語ベクトルたちを可視化してみる

NLP Python TensorFlow

はじめに

TensorFlowの0.12から、Embedding Visualizationという機能が追加されました。
単語や画像などを表現しているベクトルを可視化するためのツールです。

公式サイトの説明ページを開いてみてください。Embeddingが3次元空間にきれいに可視化されていて、しかもそれをマウスで自由に動かせる様子が見て取れます。

今回は、以前word2vecの手法で学習した単語ベクトルたちをEmbedding Visualizaationを使って可視化してみようと思います。

今日も窓辺でプログラム

外資系企業勤めのエンジニアが勉強した内容をまとめておくブログ

Pythonの標準出力でのUnicodeEncodeErrorの原因となる文字を置換する方法

標準出力でのUnicodeEncodeError

標準出力はio.TextIOWrapperで管理されている

解決方法

参考記事

CNTKでロジスティック回帰を試してみました

はじめに

CNTKの環境構築と動作確認をしてみる

はじめに

TensorBoardのEmbedding Visualizationで単語ベクトルたちを可視化してみる

はじめに