ただ大きい

データベースの規模が 1 億レコード & 1TB に到達しました.テーブルの構成自体は非常にシンプルなものですが,サイズが大きいという一点において厄介な存在です.

スナップショットを別の HDD にコピーするだけで 5 時間以上かかるし,1TB の HDD では収まらなくなったこともあり,スナップショット用の HDD を購入する費用も無視できなくなってきました.このまま 1.5TB を超えてしまうと,さらに厄介なことになるわけですが,現状では何の対策も….(汗


2009/5/2 時点のスナップショットから HTML のみを取り出してみたところ,約 2300 万文書ありました.圧縮した状態で 123GB, 展開すると 538GB 程度だったと思います.さらに,タグや空白の除去によりテキストのみを抽出すると,圧縮時で 66GB 程度,展開時で 187GB 程度になりました.

それから,圧縮した状態のテキストに対して gzip -cd と grep を使ってみると,約 50 分ほどかかりました.とりあえず,簡単でもいいので索引が必要みたいです.

# でも,なかなか取りかかれません….

追記(2009/5/19):サイズが間違っていたので修正しました.