ウェブコーパス概ね完成 - やた＠はてな日記

ウェブページを収集する段階が終わり，ダウンロードに失敗した URL や内容の重複している URL が少し含まれているものの，ユニーク URL 数はわずかに 1 億件を上回りました．URL，HTTP レスポンスヘッダ，HTML 文書の合計サイズは，未圧縮の状態で 3.2TiB 弱，圧縮した状態で約 200GiB 弱です．

そして，このウェブコーパスから内容の重複を排除し，ステータスコードが 200 以外だった URL を排除した後，文字コードを UTF-8 に統一し，テキストを切り出して，さらに N-gram 抽出用の前処理を施したところ，未圧縮の状態で 390GiB 弱，圧縮した状態で 70GiB 弱のテキストになりました．

現在は，得られたテキストの形態素解析および解析結果の圧縮をおこなっています．途中経過を見る限り，未圧縮の状態で約 4TiB，圧縮した状態で約 100GiB になると思います．

解析が終了すれば，形態素 N-gram コーパスを作成する予定です．