一ヵ月半ぶりにコーパス収集の話

昨年から Web コーパスの収集を開始して,先ごろ,DB(MySQL)のサイズが 500GB に到達しました.ファイル本体は zlib で圧縮してから格納するようになっているので,本来のサイズは 800--900GB くらいになっていると思います.

さて,いろいろと,どうしましょうか….