HTML アーカイブを Amazon EBS のスナップショット化
用途を情報解析研究に限定して,HTML アーカイブを保存した Amazon EBS のスナップショットを公開することにしました.文字コードの統一すらしていないデータなので,取り扱いには苦労すると思います.とりあえず見てみたいという方や,自前で HTML のパーサを用意できる方など,ご連絡いただければ共有の設定をいたします.
詳細は以下のウェブページをご覧ください.
文字コードの統一,テキストの切り出し,Unicode の正規化,文の切り出しなど,N-gram コーパスの作成に用いたツールは後日公開するつもりです.
また,N-gram コーパスを保存した Amazon EBS のスナップショットも公開しています.こちらは連絡不要です.
# 実はスナップショットの共有機能を試したことはありません.少し不安です.そもそも,Amazon EC2 を使っている人はほとんどいないと思いますし….
追記(2010-09-22):タグなしテキストとタグ付きテキストについても個別にページを追加しました.
追記(2010-09-25):Ubuntu 10.04 で作成した XFS は他の OS でマウントできないことがあるため,ext3 に移行しました.