コーパスの収集と HDD

研究室内では,ウェブ検索結果のサマリや Jaccard 係数を使うことが多くて,Yahoo! のウェブ検索 Web API を使わせていただいています.そして,ウェブ検索の副産物として大量の URL が手に入ったので,Web ページを収集して大規模なコーパスを作成することにしました.

サイズが大きくなるのは分かっていたため,圧縮しながら保存するようにしてあります.おかげで,手元にある全ての URL にアクセスして Web ページを収集しても,なんとか収まりそうです.

しかし,サイズが大きすぎて展開できないことに気付きました….

ところで,いつの間にやら 500GB プラッタの HDD が発売されているみたいだけど,2TB の HDD は何時ごろ現れるのかな….500GB x 3 の 1.5TB でもいいけど….

などと現実逃避をしつつ,とりあえず 375GB x 4 で 1.5TB の HDD を購入しておきました.今のところは大容量の HDD でも対処できるけど,さらに大きくなると,スケーラビリティについて真面目に考えないといけません.

誰が管理するのかな…?一番の課題は,誰に引き継ぐのか…なのかもしれません.