セクションターゲットの用例アーカイブを公開
セクションターゲットを含む HTML 文書のアーカイブを公開しました.
- セクションターゲット - 日本語ウェブコーパス 2010
そのまま公開というわけにはいかないので,コメント・スクリプト・スタイルを取り除いたり,タグの属性を除去したり,テキスト要素の文字を字種だけ残したりしています.
何かに使えるかなー,というくらいの気持ちで作成しました.セクションターゲットが指定されていないサイトに自動で指定を与えるというようなタスクを考えてやれば使えるかも…?(なげやり
もっと詳しく
コメント
コメントは削除しました.残っているのはセクションターゲット用のコメントだけです.
基本的には,<!-- google_ad_section_start -> がセクションターゲットの開始を意味し,<!-- google_ad_section_end --> が終了を意味します.ただし,無視したいセクションについては,<!-- google_ad_section_start(weight=ignore) --> が開始を意味します.後者も終了には <!-- google_ad_section_end --> が使用されます.
- セクション ターゲットの概要とその設定方法 - AdSense ヘルプ
スクリプト・スタイル
<script> と <style> については,タグのみを残し,中身は削除してあります.
特殊なタグ
'<' の後に '!' もしくは '?' がくるタグについては,上述のコメントを除いて,すべてを取り除いています.そのため,コメントや XML 宣言は残っていません.ただし,CDATA セクションについては,記号の部分を除いた上で,テキスト要素として残されています.
タグ全般
タグおよび属性の名前については,小文字に統一するようにしました.元が <HTML> であろうと <Html> であろうと,用例アーカイブでは <html> になっています.また,タグの属性については,class, id, name のみを残して,他は削除してあります.
文字参照
文字参照については,HTML 文書を解析する段階で UTF-8 の文字列に変換した後,'<' と '>' については文字参照に戻すようにしています.そのため,タグを構成する以外で '<' と > は出現せず,簡単な正規表現('<.*?>' など)でタグとテキスト要素を切り分けることができます.属性値については,'"e;' も文字参照に戻しています.
文字の置換
テキスト要素の中身は,以下の表にしたがって文字の置換をおこなっています.例えば,"2010-11-30 - やた@はてな日記" は "0000x00x00 x hhxhhhKK" に置換されています.なんのことやらサッパリです.
字種 | 置換後 | 置換前(x–y は x 以上 y 以下の範囲) |
---|---|---|
空白 | ' ' | '\t', '\r', ' ', U+00A0, U+202F ,U+205F, U+3000, U+FEFF, U+2000–U+200B |
改行 | '\n' | '\n' |
読点 | ',' | ',', U+3001, U+FF0C, U+FF64 |
句点 | '.' | '.', U+3002, U+FF0E, U+FF61 |
数字 | '0' | '0'-'9', U+FF10–U+FF19 |
大文字 | 'A' | 'A'-'Z', U+FF21–U+FF3A |
小文字 | 'a' | 'a'-'z', U+FF41–U+FF5A |
ひらがな | 'h' | U+3040–U+309F |
カタカナ | 'k' | U+30A0–U+30FF, U+31F0–U+31FF, U+FF66–U+FF9F |
漢字 | 'K' | U+3400–U+4DBF, U+4E00–U+9FFF, U+F900–U+FAFF, U+20000–U+2FA1F |
その他 | 'x' | その他 |