ウェブコーパスの形態素頻度
現在手元にあるウェブコーパスの 1 割に相当する約 600 万のウェブページから切り出したテキストについて,形態素の出現頻度を求めてみました.
文数 | 623,455,629(約 6 億) |
---|---|
形態素数 | 9,058,967,398(約 90 億) |
前処理の内容は某社が作成した N-gram コーパスとほぼ同じで,頻度が 10 以上の形態素のみを収録しています.
頻度降順に整列すると以下のようになります.
$ xz -cd vocab.xz | sort -rnk2 | head <S> 623455629 </S> 623455629 の 443322569 、 371512228 に 265173076 て 237762006 は 232600159 を 216320746 が 215574896 た 199229495