今度は文字 N-gram コーパスを作成しました
追記(2010-09-22):完成版がこちら(N-gram コーパス - 日本語ウェブコーパス 2010)にあります.
前回は形態素 N-gram コーパスを作成したので,今回は文字 N-gram コーパスを作成してみました.正確には,Unicode のコードポイント N-gram です.
ダウンロード
文字 N-gram コーパス(頻度 100 以上)
ファイル名(URL) | サイズ [bytes] |
---|---|
http://dist.s-yata.jp/2010/0807/over99/1gms/1gm-0000.xz | 27,932 |
http://dist.s-yata.jp/2010/0807/over99/2gms/2gm-0000.xz | 3,086,292 |
http://dist.s-yata.jp/2010/0807/over99/3gms/3gm-0000.xz | 21,169,168 |
http://dist.s-yata.jp/2010/0807/over99/4gms/4gm-0000.xz | 36,210,100 |
http://dist.s-yata.jp/2010/0807/over99/4gms/4gm-0001.xz | 7,451,308 |
http://dist.s-yata.jp/2010/0807/over99/5gms/5gm-0000.xz | 39,482,176 |
http://dist.s-yata.jp/2010/0807/over99/5gms/5gm-0001.xz | 10,833,184 |
文字 N-gram コーパス(頻度 10 以上)
N-gram の異なり数
- | over99 | over9 |
---|---|---|
1-gram | 8,272 | 12,532 |
2-gram | 1,008,408 | 2,582,209 |
3-gram | 6,368,778 | 27,960,580 |
4-gram | 11,937,495 | 82,169,485 |
5-gram | 12,534,135 | 121,965,042 |
合計 | 31,857,088 | 234,689,848 |
サンプル
$ xz -cd over99/5gms/5gm-*.xz | grep '^健 康' | sort -rnk6 | head 健 康 づ く り 25258 健 康 ビ ジ ネ 23490 健 康 、 美 容 17057 健 康 の た め 13222 健 康 保 険 の 9833 健 康 診 断 の 7977 健 康 保 険 組 7347 健 康 食 品 の 7155 健 康 診 断 を 6838 健 康 診 断 で 6488
追記(2010-08-08):フォーマット(空白区切り)の関係で,本文中の空白は除去するようにしてあります.そのため,英単語間の空白などは文字 N-gram に反映されていません.後,少数ではありますが,LEFT-TO-RIGHT MARK と RIGHT-TO-LEFT MARK が入っています.表示方向の制御が有効なアプリケーション(ブラウザなど)で内容を確認すると,一部,左右が逆向きに表示されてしまいます.また,ブラウザの親切によるものですが,アラビア文字が含まれる部分も,表示が右から左になるようです.