2010-07-28から1日間の記事一覧
現在手元にあるウェブコーパスの 1 割に相当する約 600 万のウェブページから切り出したテキストについて,形態素の出現頻度を求めてみました. 文数 623,455,629(約 6 億) 形態素数 9,058,967,398(約 90 億) 前処理の内容は某社が作成した N-gram コー…
現在手元にあるウェブコーパスの 1 割に相当する約 600 万のウェブページから切り出したテキストについて,形態素の出現頻度を求めてみました. 文数 623,455,629(約 6 億) 形態素数 9,058,967,398(約 90 億) 前処理の内容は某社が作成した N-gram コー…