ウェブコーパスの形態素頻度

現在手元にあるウェブコーパスの 1 割に相当する約 600 万のウェブページから切り出したテキストについて,形態素の出現頻度を求めてみました.

文数 623,455,629(約 6 億)
形態素 9,058,967,398(約 90 億)

前処理の内容は某社が作成した N-gram コーパスとほぼ同じで,頻度が 10 以上の形態素のみを収録しています.

頻度降順に整列すると以下のようになります.

$ xz -cd vocab.xz | sort -rnk2 | head
<S>	623455629
</S>	623455629
の	443322569
、	371512228
に	265173076
て	237762006
は	232600159
を	216320746
が	215574896
た	199229495