実験結果のメモ

日本語版 Google n-gram の 3-gram(頻度抜き)を使ってダブル配列を構築してみました.

  • 入力:3 億 9 千万件の単語 3-gram(8GB)
  • 出力:要素数 3 億 2 千万のダブル配列(1.3GB)
  • 構築時間:1 時間 30 分

使い道がありそうな,なさそうな….

追記:3-gram は 1-gram を半角空白で区切った状態(元の書式のまま)で使用しています.