MeCab に組み込んでみた

MeCab の Darts をクローンで置き換えてみたところ,特に問題なく動作しました.構築された辞書のサイズ(sys.dic のみ)を残しておきます.

/usr/local/libexec/mecab/mecab-dict-index -d . -o . -f EUC-JP -t 文字コード
文字コード Darts Darts-clone
sjis 37,638,335 32,232,563
euc 37,779,919 32,245,051
utf8 49,199,027 41,587,051

品詞や読みに割り当てられている領域の方がずっと大きいようで,全体から見ると大して効果はありません.sys.dic のサイズが 15% ほど削減されるにとどまりました.

分かち書き用の辞書を構築した場合(-w)は以下のようになりました.こちらは少し嬉しい結果になっています.

/usr/local/libexec/mecab/mecab-dict-index -w -d . -o . -f EUC-JP -t 文字コード
文字コード Darts Darts-clone
sjis 15,132,073 9,726,301
euc 15,273,657 9,738,789
utf8 17,700,673 10,088,697

Windows にインストールしたときの辞書サイズは上記より大きくなっています.原因は謎です.