作成中のウェブコーパスの内容について
続けてコメントをいただいたので,ウェブコーパスの中身について分かっていることを書いておきます.
アダルト系のページについて
Yahoo! ウェブ検索 Web API を使うとき,デフォルトの設定(adult_ok は値なし)にしているので,アダルト系のページはかなり少ないと思います.一部を手作業で確認したとき,それらしいページは見当たりませんでした.
URL の正規化について
URL の正規化についても,Yahoo! Web API におまかせで,ほぼ問題ないと思っています.ただし,http://example.com/ と http://example.com/index.html のような重複は,少ないながらも確認しました.大抵は同じ内容になりますが,サーバの設定次第では異なる内容になる可能性もありますから,仕方がないと思います.