CETR による HTML 文書からのテキスト抽出

n-yo さんに教えていただいてから随分と経ってしまいましたが，CETR を実装してウェブサービス化してみました．

CETR というのは "Content Extraction via Tag Ratios" の略で，HTML 文書の各行に含まれるタグの割合を利用してコンテンツを抽出する手法です．簡単な内容は以下のようになっています．

CETR - Content Extraction via Tag Ratios (Weninger et al., WWW 2010)
- http://www.cs.illinois.edu/homes/weninge1/pubs/WHH_WWW10.pdf

書かれている内容は一切考慮しないという思い切りの良い手法で，学習の必要もありません．Core 2 Duo 1.6GHz でも 280 文書/秒くらいの処理速度なので，時間もそれほどかかりません．

精度については「何もしないよりはマシ」くらいに思っておいた方がよいと思います．特定のサイトに特化したコンテンツ抽出とは比較になりません．ただし，改善の余地はあります．

追記（2010-11-10）：行を分割する条件を論文通りに修正しました．精度は良くなったり悪くなったりです．

追記（2010-11-10）：Ti や Gi を含め，途中経過も表示するように修正しました．空白のみで構成されている行は非表示になっています．また，背景の明るい行がコンテンツと判定された部分，青字が取り除かれた部分，緑字がタグを示しています．