セクションターゲットを訓練データに使えないだろうか…(コンテンツ抽出)

google_ad_section_start と google_ad_section_end で囲まれている部分を抽出するというのはよくある話だから,これを訓練データにしたという人がいてもおかしくないかなと思ったのですが,そういうことを試した人はいないのでしょうか.

現在,データだけでも作成してみようかと考えています.タグの属性を取り除いたり,テキスト部分を適当な記号列に置き換えたり(ひらがな -> 'h',カタカナ -> 'k',漢字 -> 'K' など)というように加工すれば,著作権の問題も解決できますし,圧縮もしやすくなるので,公開も可能かもしれません.

使い物になるか否かはデータを眺めてみないと何とも言えませんが….

追記(2010-11-12):とりあえず,手元のウェブコーパスを入力として作成中です.修了までに 2 日ほどかかると思います.