セクションターゲットの用例アーカイブを公開

セクションターゲットを含む HTML 文書のアーカイブを公開しました．

セクションターゲット - 日本語ウェブコーパス 2010
- http://s-yata.jp/corpus/nwc2010/adsense/

そのまま公開というわけにはいかないので，コメント・スクリプト・スタイルを取り除いたり，タグの属性を除去したり，テキスト要素の文字を字種だけ残したりしています．

何かに使えるかなー，というくらいの気持ちで作成しました．セクションターゲットが指定されていないサイトに自動で指定を与えるというようなタスクを考えてやれば使えるかも…？（なげやり

もっと詳しく

コメントは削除しました．残っているのはセクションターゲット用のコメントだけです．

基本的には， が終了を意味します．ただし，無視したいセクションについては， が開始を意味します．後者も終了には  が使用されます．

セクションターゲットの概要とその設定方法 - AdSense ヘルプ
- http://www.google.com/adsense/support/bin/answer.py?hl=jp&answer=23168

スクリプト・スタイル

特殊なタグ

'<' の後に '!' もしくは '?' がくるタグについては，上述のコメントを除いて，すべてを取り除いています．そのため，コメントや XML 宣言は残っていません．ただし，CDATA セクションについては，記号の部分を除いた上で，テキスト要素として残されています．

タグ全般

タグおよび属性の名前については，小文字に統一するようにしました．元が <HTML> であろうと <Html> であろうと，用例アーカイブでは <html> になっています．また，タグの属性については，class, id, name のみを残して，他は削除してあります．

文字参照

文字参照については，HTML 文書を解析する段階で UTF-8 の文字列に変換した後，'<' と '>' については文字参照に戻すようにしています．そのため，タグを構成する以外で '<' と > は出現せず，簡単な正規表現（'<.*?>' など）でタグとテキスト要素を切り分けることができます．属性値については，'"e;' も文字参照に戻しています．

文字の置換

テキスト要素の中身は，以下の表にしたがって文字の置換をおこなっています．例えば，"2010-11-30 - やた＠はてな日記" は "0000x00x00 x hhxhhhKK" に置換されています．なんのことやらサッパリです．

字種	置換後	置換前（x–y は x 以上 y 以下の範囲）
空白	' '	'\t', '\r', ' ', U+00A0, U+202F ,U+205F, U+3000, U+FEFF, U+2000–U+200B
改行	'\n'	'\n'
読点	','	',', U+3001, U+FF0C, U+FF64
句点	'.'	'.', U+3002, U+FF0E, U+FF61
数字	'0'	'0'-'9', U+FF10–U+FF19
大文字	'A'	'A'-'Z', U+FF21–U+FF3A
小文字	'a'	'a'-'z', U+FF41–U+FF5A
ひらがな	'h'	U+3040–U+309F
カタカナ	'k'	U+30A0–U+30FF, U+31F0–U+31FF, U+FF66–U+FF9F
漢字	'K'	U+3400–U+4DBF, U+4E00–U+9FFF, U+F900–U+FAFF, U+20000–U+2FA1F
その他	'x'	その他