先日の N-gram コーパスについて

文末記号について

文末を示す記号(</S>)を入れ忘れていました.申し訳ありません.

近いうちに作成しなおす予定です.何か意見などがありましたら,それらも可能な範囲で反映させようと思います.

例えば,デリミタ扱いしている文字(読点など)を残すとか,品詞付きの N-gram データとか,文字単位の N-gram データとか….

コーパスのバイアスについて

先日 id:nokuno さんが公開した単語の尤度比データ(http://d.hatena.ne.jp/nokuno/20100731/1280563104)を見ると,各コーパスの特徴を確認できます.不自然言語処理コンテスト(http://www.baidu.jp/unlp/)に際して公開されたコーパスと比べると小難しい表現の割合が高く,Wikipedia と比べるとウェブらしい表現の割合が高くなっています.

形態素解析の誤りについて

ウェブコーパスを対象としているので仕方のないことですが,形態素解析の誤りがそれなりにあります.そもそも,品詞を付けられないような文字列もありますし….

とりあえず,目についた例を挙げておきます.

$ mecab
重要文化財(じゅうようぶんかざい)
重要	名詞,形容動詞語幹,*,*,*,*,重要,ジュウヨウ,ジューヨー
文化財	名詞,一般,*,*,*,*,文化財,ブンカザイ,ブンカザイ
(	名詞,サ変接続,*,*,*,*,*
じ	助動詞,*,*,*,不変化型,基本形,じ,ジ,ジ
ゅうようぶんかざい	名詞,一般,*,*,*,*,*
)	名詞,サ変接続,*,*,*,*,*
EOS

辞書に登録されていない表現に対して,サ変接続の名詞という品詞が推定されています.出現頻度の高い表現については辞書に登録しておいた方が良いかもしれません.ただし,際限がないので触りたくないところです.