文字 n-gram の抽出

文字 n-gram の頻度を抽出するプログラムを以下の場所に置いてみました.

使い方は,./configure と make をしてから get-ngram.sh を実行するだけです.以下のような手順になります.

./configure
make
./get-ngram.sh 1 9 10 text-file 3

  • 第 1 引数: n-gram の n(始点)
  • 第 2 引数: n-gram の n(終点)
    • 第 1 引数が 1 で第 2 引数が 9 の場合,1-gram から 9-gram を抽出します.
  • 第 3 引数: 頻度の下限
  • 第 4 引数: 入力ファイル(UTF-8
  • 第 5 引数: 並列して実行するプロセスの数(オプション)

実装自体は簡単なもので,特に速いということもありません.面倒なときにでも….