dawgdic はキーワード自動リンクに最適かも

dawgdic は,キーに対してレコードを割り当てない場合(正確にはすべてのキーに対して同じ値をレコードとして割り当てる場合),かなり辞書を圧縮できます.その上,検索速度も Darts と同等になるはずなので,キーワード自動リンクには最適かもしれません.

Darts によるダブル配列と dawgdic によるレコードなしの辞書を比較してみると,サイズ(bytes)は下表のようになります.大体 16 〜 18 % くらいにまで圧縮されているので,かなり有効だと思います.

ID Contents Darts dawgdic
EN1 WordNet の英単語 7,526,800 1,293,316
EN2 英語 Wikipedia タイトル一覧 454,517,200 78,477,316
EN3 英語 Google n-gram の 1-gram 406,358,432 65,685,508
JA1 ipadic の見出し語 9,198,968 1,519,620
JA2 日本語 Wikipedia タイトル一覧 77,791,488 13,891,588
JA3 日本語 Google n-gram の 1-gram 162,689,912 25,608,196