dawgdic はキーワード自動リンクに最適かも
dawgdic は,キーに対してレコードを割り当てない場合(正確にはすべてのキーに対して同じ値をレコードとして割り当てる場合),かなり辞書を圧縮できます.その上,検索速度も Darts と同等になるはずなので,キーワード自動リンクには最適かもしれません.
Darts によるダブル配列と dawgdic によるレコードなしの辞書を比較してみると,サイズ(bytes)は下表のようになります.大体 16 〜 18 % くらいにまで圧縮されているので,かなり有効だと思います.
ID | Contents | Darts | dawgdic |
---|---|---|---|
EN1 | WordNet の英単語 | 7,526,800 | 1,293,316 |
EN2 | 英語 Wikipedia タイトル一覧 | 454,517,200 | 78,477,316 |
EN3 | 英語 Google n-gram の 1-gram | 406,358,432 | 65,685,508 |
JA1 | ipadic の見出し語 | 9,198,968 | 1,519,620 |
JA2 | 日本語 Wikipedia タイトル一覧 | 77,791,488 | 13,891,588 |
JA3 | 日本語 Google n-gram の 1-gram | 162,689,912 | 25,608,196 |