Unicode の方向制御文字は思いのほかに厄介かも

ウェブコーパスからテキストを切り出して,分かち書きをして,頻度を求めて,…というような処理を試していたところ,テキストに含まれる表示方向を制御する文字(例えばアラビア語で用いる)のおかげで,出力結果の表示があっち向いたりこっち向いたりする(一部,左右逆になる)ことに気づきました.

とりあえず,Unicode 正規化の段階で削除しようと思います.

他にも気づいていない落とし穴がたくさんありそうで怖い….

追記(2010-08-08):LEFT-TO-RIGHT MARK と RIGHT-TO-LEFT MARK を追加しました.