タグの使用頻度を調査
セクションターゲットを訓練データに使えないだろうか…(コンテンツ抽出) - やた@はてな日記 のアイデアを元にデータを作成してみたものの,バイアスがかなり強いような気がしたので,タグの使用頻度を調べてみることにしました.
調査したのは,手元にあるウェブコーパス全体での使用頻度と,セクションターゲットを含む文書(同じホストの文書は排除)での使用頻度です.各タグについて,単純な出現回数(TF)と,出現した文書の数(DF)を求めてみました.
以下に示すのは TF が上位のタグのみですが,それなりに違いが出ています.後,作成したデータについては,タグの使用頻度とともにダウンロードできるようにする予定です.
※ オープンタグよりクローズタグの頻度が大きいのは,オープンタグを属性値(class, id, name)によって別々に計数しているためです.
ウェブコーパス全体
- 文書数:97,171,420
- タグ数:88,762,839,117
ランク | TF | DF | タグ |
---|---|---|---|
1 | 8,324,461,769(9.38%) | 93,192,370(95.91%) | </a> |
2 | 7,210,223,707(8.12%) | 92,670,458(95.37%) | <a> |
3 | 5,887,093,457(6.63%) | 72,633,388(74.75%) | </td> |
4 | 5,106,629,275(5.75%) | 66,666,732(68.61%) | <br> |
5 | 4,791,595,267(5.40%) | 82,305,641(84.70%) | </div> |
6 | 4,535,069,983(5.11%) | 69,082,482(71.09%) | <td> |
7 | 2,874,756,223(3.24%) | 51,206,314(52.70%) | </li> |
8 | 2,635,085,194(2.97%) | 46,295,852(47.64%) | <br /> |
9 | 2,526,759,241(2.85%) | 72,432,145(74.54%) | </tr> |
10 | 2,448,340,539(2.76%) | 72,314,010(74.42%) | <tr> |
セクションターゲットを含む文書のみ
- 文書数:26,725
- タグ数:37,424,386
ランク | TF | DF | タグ |
---|---|---|---|
1 | 3,770,558(10.08%) | 26,691(99.87%) | </a> |
2 | 3,117,254( 8.33%) | 26,390(98.75%) | </div> |
3 | 2,992,562( 8.00%) | 26,676(99.82%) | <a> |
4 | 2,679,290( 7.16%) | 20,604(77.10%) | <br /> |
5 | 1,801,894( 4.81%) | 15,595(58.35%) | <br> |
6 | 1,789,172( 4.78%) | 20,337(76.10%) | </span> |
7 | 1,206,702( 3.22%) | 14,319(53.58%) | </td> |
8 | 1,125,864( 3.01%) | 20,110(75.25%) | </li> |
9 | 984,498( 2.63%) | 19,519(73.04%) | </p> |
10 | 815,865( 2.18%) | 13,293(49.74%) | <td> |
パッと見て思ったこと
本題とは関係ありませんが,<br> が出現する文書の割合と <br /> が出現する文書の割合とを合計すると 100% を超えてしまうところに釈然としないものを感じます.