HTML アーカイブを Amazon EBS のスナップショット化

用途を情報解析研究に限定して,HTML アーカイブを保存した Amazon EBS のスナップショットを公開することにしました.文字コードの統一すらしていないデータなので,取り扱いには苦労すると思います.とりあえず見てみたいという方や,自前で HTML のパーサを用意できる方など,ご連絡いただければ共有の設定をいたします.

詳細は以下のウェブページをご覧ください.

文字コードの統一,テキストの切り出し,Unicode の正規化,文の切り出しなど,N-gram コーパスの作成に用いたツールは後日公開するつもりです.

また,N-gram コーパスを保存した Amazon EBS のスナップショットも公開しています.こちらは連絡不要です.

# 実はスナップショットの共有機能を試したことはありません.少し不安です.そもそも,Amazon EC2 を使っている人はほとんどいないと思いますし….

追記(2010-09-22):タグなしテキストとタグ付きテキストについても個別にページを追加しました.

追記(2010-09-25):Ubuntu 10.04 で作成した XFS は他の OS でマウントできないことがあるため,ext3 に移行しました.