DAWG 構築テストの結果
いくつか用意したキーワードから DAWG を構築して,DAWG のサイズと構築時間を調べてみました.テストには Core Duo L2500 1.83GHz を使っています.
キーワード | キーワード数 | 元サイズ | DAWG サイズ | 構築時間 |
---|---|---|---|---|
Wikipedia | 790,170 | 16,724 KB | 11,868 KB | 25 秒 |
はてなダイアリーキーワード | 211,446 | 2,757 KB | 2,299 KB | 3.7 秒 |
ipadic 見出し語 | 217,404 | 1,663 KB | 1,194 KB | 2.0 秒 |
ipadic 読み | 159,442 | 1,981 KB | 1,005 KB | 1.9 秒 |
WordNet 英単語 | 147,249 | 1,837 KB | 1,210 KB | 2.2 秒 |
郵便番号 | 117,776 | 942 KB | 105 KB | 0.5 秒 |
こんな感じになりました.
- DAWG サイズ
- 元サイズより小さくなっていますが,保証はありません.
- DAWG の構造上,郵便番号は得意です.
- 構築するときの作業領域は DAWG サイズの 10 倍以上という罠があります. :)
- 構築時間
- ダブル配列と比べると,ゆっくりしています.