続・入力補完

Google n-gram を使って入力補完を試してみました.ただし,あまりにもデータが大きいので,日本語版については頻度 800 以上,英語版については頻度 2000 以上の n-gram のみを利用しています.また,あまり細かい頻度を提示しても見づらいだけなので,有効桁数を 3 桁に絞りました.状態数の削減にも多少は影響しています.

上記の設定では,検索対象となる n-gram の数は 8000 万件から 9000 万件ほどになり,辞書のサイズは,入力補完用の辞書も併せて 2GB 程度になりました.単一の辞書では 1 億 2000 万件くらいで上限に達してしまうようなので,すべてのデータを対象とするには,少なくとも 30 前後の辞書が必要になる計算です.

  • 日本語版


  • 英語版

辞書順ではなく,頻度降順になっているのがポイントです.

# dawgdic の次期バージョンで提供する予定になっている,value 降順のキー補完を利用しています.