文字 n-gram の抽出
文字 n-gram の頻度を抽出するプログラムを以下の場所に置いてみました.
- char-ngram-0.1.0.tar.gz
使い方は,./configure と make をしてから get-ngram.sh を実行するだけです.以下のような手順になります.
./configure
make
./get-ngram.sh 1 9 10 text-file 3
- 第 1 引数: n-gram の n(始点)
- 第 2 引数: n-gram の n(終点)
- 第 1 引数が 1 で第 2 引数が 9 の場合,1-gram から 9-gram を抽出します.
- 第 3 引数: 頻度の下限
- 第 4 引数: 入力ファイル(UTF-8)
- 第 5 引数: 並列して実行するプロセスの数(オプション)
実装自体は簡単なもので,特に速いということもありません.面倒なときにでも….