MeCab に組み込んでみた
MeCab の Darts をクローンで置き換えてみたところ,特に問題なく動作しました.構築された辞書のサイズ(sys.dic のみ)を残しておきます.
/usr/local/libexec/mecab/mecab-dict-index -d . -o . -f EUC-JP -t 文字コード
文字コード | Darts | Darts-clone |
---|---|---|
sjis | 37,638,335 | 32,232,563 |
euc | 37,779,919 | 32,245,051 |
utf8 | 49,199,027 | 41,587,051 |
品詞や読みに割り当てられている領域の方がずっと大きいようで,全体から見ると大して効果はありません.sys.dic のサイズが 15% ほど削減されるにとどまりました.
分かち書き用の辞書を構築した場合(-w)は以下のようになりました.こちらは少し嬉しい結果になっています.
/usr/local/libexec/mecab/mecab-dict-index -w -d . -o . -f EUC-JP -t 文字コード
文字コード | Darts | Darts-clone |
---|---|---|
sjis | 15,132,073 | 9,726,301 |
euc | 15,273,657 | 9,738,789 |
utf8 | 17,700,673 | 10,088,697 |
- MeCab: Yet Another Part-of-Speech and Morphological Analyzer
※ Windows にインストールしたときの辞書サイズは上記より大きくなっています.原因は謎です.