作成中のウェブコーパスの内容について

続けてコメントをいただいたので,ウェブコーパスの中身について分かっていることを書いておきます.

アダルト系のページについて

Yahoo! ウェブ検索 Web API を使うとき,デフォルトの設定(adult_ok は値なし)にしているので,アダルト系のページはかなり少ないと思います.一部を手作業で確認したとき,それらしいページは見当たりませんでした.

URL の正規化について

URL の正規化についても,Yahoo! Web API におまかせで,ほぼ問題ないと思っています.ただし,http://example.com/http://example.com/index.html のような重複は,少ないながらも確認しました.大抵は同じ内容になりますが,サーバの設定次第では異なる内容になる可能性もありますから,仕方がないと思います.

同一内容のページについて

手元にあるデータの一部(約 60 万文書)から,メッセージダイジェスト(MD5 より少し贅沢に SHA-1)を用いて同一内容のページを探してみたところ,重複の割合は 1% 以下でした.それほど神経質にならなくてもよさそうです.

同一内容のページを排除する場合,メインコンテンツの抽出と併せてやろうと思います.