今度は文字 N-gram コーパスを作成しました

追記(2010-09-22):完成版がこちら(N-gram コーパス - 日本語ウェブコーパス 2010)にあります.

前回は形態素 N-gram コーパスを作成したので,今回は文字 N-gram コーパスを作成してみました.正確には,Unicode のコードポイント N-gram です.

ダウンロード

文字 N-gram コーパス(頻度 10 以上)
ファイル名(URL) サイズ [bytes]
http://dist.s-yata.jp/2010/0807/over9/1gms/1gm-0000.xz 37,552
http://dist.s-yata.jp/2010/0807/over9/2gms/2gm-0000.xz 6,769,944
http://dist.s-yata.jp/2010/0807/over9/3gms/3gm-0000.xz 27,398,072
http://dist.s-yata.jp/2010/0807/over9/3gms/3gm-0001.xz 28,270,104
http://dist.s-yata.jp/2010/0807/over9/3gms/3gm-0002.xz 22,655,108
http://dist.s-yata.jp/2010/0807/over9/4gms/4gm-0000.xz 30,442,592
http://dist.s-yata.jp/2010/0807/over9/4gms/4gm-0001.xz 29,747,236
http://dist.s-yata.jp/2010/0807/over9/4gms/4gm-0002.xz 29,766,944
http://dist.s-yata.jp/2010/0807/over9/4gms/4gm-0003.xz 29,842,276
http://dist.s-yata.jp/2010/0807/over9/4gms/4gm-0004.xz 30,096,400
http://dist.s-yata.jp/2010/0807/over9/4gms/4gm-0005.xz 32,369,808
http://dist.s-yata.jp/2010/0807/over9/4gms/4gm-0006.xz 32,021,404
http://dist.s-yata.jp/2010/0807/over9/4gms/4gm-0007.xz 32,694,636
http://dist.s-yata.jp/2010/0807/over9/4gms/4gm-0008.xz 6,966,464
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0000.xz 34,261,648
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0001.xz 32,869,872
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0002.xz 32,847,668
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0003.xz 32,556,448
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0004.xz 33,013,732
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0005.xz 33,678,356
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0006.xz 32,073,288
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0007.xz 32,267,400
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0008.xz 36,048,596
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0009.xz 36,654,520
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0010.xz 36,132,136
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0011.xz 36,170,872
http://dist.s-yata.jp/2010/0807/over9/5gms/5gm-0012.xz 7,323,344

N-gram の異なり数

- over99 over9
1-gram 8,272 12,532
2-gram 1,008,408 2,582,209
3-gram 6,368,778 27,960,580
4-gram 11,937,495 82,169,485
5-gram 12,534,135 121,965,042
合計 31,857,088 234,689,848

サンプル

$ xz -cd over99/5gms/5gm-*.xz | grep '^健 康' | sort -rnk6 | head
健 康 づ く り	25258
健 康 ビ ジ ネ	23490
健 康 、 美 容	17057
健 康 の た め	13222
健 康 保 険 の	9833
健 康 診 断 の	7977
健 康 保 険 組	7347
健 康 食 品 の	7155
健 康 診 断 を	6838
健 康 診 断 で	6488

追記(2010-08-08):フォーマット(空白区切り)の関係で,本文中の空白は除去するようにしてあります.そのため,英単語間の空白などは文字 N-gram に反映されていません.後,少数ではありますが,LEFT-TO-RIGHT MARK と RIGHT-TO-LEFT MARK が入っています.表示方向の制御が有効なアプリケーション(ブラウザなど)で内容を確認すると,一部,左右が逆向きに表示されてしまいます.また,ブラウザの親切によるものですが,アラビア文字が含まれる部分も,表示が右から左になるようです.