リソースを気軽に投入できるのは便利

昨日の話(Amazon EC2 を使ってウェブコーパスを作成中 - やた@はてな日記)に関して有用なコメントをいただいたので,とりあえず bzip2 から xz への移行をしています.

# bzip2 から xz への移行により,コーパスのサイズは 10-15% くらい小さくなると思います.

bzip2 と比べても圧縮時間が大幅に長いというのは難点ですが,任意のタイミングでリソースを投入できるという Amazon EC2 の特徴により,手元にあるデータの移行は明日にも終わりそうです.

テキストの切り出し方法については,再検討中です.