コーパスの収集と HDD
研究室内では,ウェブ検索結果のサマリや Jaccard 係数を使うことが多くて,Yahoo! のウェブ検索 Web API を使わせていただいています.そして,ウェブ検索の副産物として大量の URL が手に入ったので,Web ページを収集して大規模なコーパスを作成することにしました.
サイズが大きくなるのは分かっていたため,圧縮しながら保存するようにしてあります.おかげで,手元にある全ての URL にアクセスして Web ページを収集しても,なんとか収まりそうです.
しかし,サイズが大きすぎて展開できないことに気付きました….
ところで,いつの間にやら 500GB プラッタの HDD が発売されているみたいだけど,2TB の HDD は何時ごろ現れるのかな….500GB x 3 の 1.5TB でもいいけど….
などと現実逃避をしつつ,とりあえず 375GB x 4 で 1.5TB の HDD を購入しておきました.今のところは大容量の HDD でも対処できるけど,さらに大きくなると,スケーラビリティについて真面目に考えないといけません.
誰が管理するのかな…?一番の課題は,誰に引き継ぐのか…なのかもしれません.