ただ大きい - やた＠はてな日記

データベースの規模が 1 億レコード & 1TB に到達しました．テーブルの構成自体は非常にシンプルなものですが，サイズが大きいという一点において厄介な存在です．

スナップショットを別の HDD にコピーするだけで 5 時間以上かかるし，1TB の HDD では収まらなくなったこともあり，スナップショット用の HDD を購入する費用も無視できなくなってきました．このまま 1.5TB を超えてしまうと，さらに厄介なことになるわけですが，現状では何の対策も…．（汗

2009/5/2 時点のスナップショットから HTML のみを取り出してみたところ，約 2300 万文書ありました．圧縮した状態で 123GB, 展開すると 538GB 程度だったと思います．さらに，タグや空白の除去によりテキストのみを抽出すると，圧縮時で 66GB 程度，展開時で 187GB 程度になりました．

それから，圧縮した状態のテキストに対して gzip -cd と grep を使ってみると，約 50 分ほどかかりました．とりあえず，簡単でもいいので索引が必要みたいです．

# でも，なかなか取りかかれません…．

追記（2009/5/19）：サイズが間違っていたので修正しました．