スライド(重複レコードの多いトライ辞書の圧縮)

重複レコードの多い辞書については,トライから Directed Acyclic Word Graph (DAWG) への変換で大幅に圧縮できるかもしれません.…という内容のスライドです.

DAWG の利点は,検索時間を落とさずに辞書を圧縮できることです.内部データ構造にダブル配列を採用すれば,Darts と同等の検索時間を実現できます.というわけで,速度重視で重複レコードが多いという場面での活躍が期待されます.

# URL のようにキーが長いと,Minimal Prefix (MP) トライの方が有利になるかもしれません.また,辞書のサイズを優先するのであれば,簡潔データ構造である Level-Order Unary Degree Sequence (LOUDS) や Depth-First Unary Degree Sequence (DFUDS) の方を採用することになると思います.