タグの使用頻度を調査

セクションターゲットを訓練データに使えないだろうか…(コンテンツ抽出) - やた@はてな日記 のアイデアを元にデータを作成してみたものの,バイアスがかなり強いような気がしたので,タグの使用頻度を調べてみることにしました.

調査したのは,手元にあるウェブコーパス全体での使用頻度と,セクションターゲットを含む文書(同じホストの文書は排除)での使用頻度です.各タグについて,単純な出現回数(TF)と,出現した文書の数(DF)を求めてみました.

以下に示すのは TF が上位のタグのみですが,それなりに違いが出ています.後,作成したデータについては,タグの使用頻度とともにダウンロードできるようにする予定です.

※ オープンタグよりクローズタグの頻度が大きいのは,オープンタグを属性値(class, id, name)によって別々に計数しているためです.

ウェブコーパス全体

  • 文書数:97,171,420
  • タグ数:88,762,839,117
ランク TF DF タグ
1 8,324,461,769(9.38%) 93,192,370(95.91%) </a>
2 7,210,223,707(8.12%) 92,670,458(95.37%) <a>
3 5,887,093,457(6.63%) 72,633,388(74.75%) </td>
4 5,106,629,275(5.75%) 66,666,732(68.61%) <br>
5 4,791,595,267(5.40%) 82,305,641(84.70%) </div>
6 4,535,069,983(5.11%) 69,082,482(71.09%) <td>
7 2,874,756,223(3.24%) 51,206,314(52.70%) </li>
8 2,635,085,194(2.97%) 46,295,852(47.64%) <br />
9 2,526,759,241(2.85%) 72,432,145(74.54%) </tr>
10 2,448,340,539(2.76%) 72,314,010(74.42%) <tr>

セクションターゲットを含む文書のみ

  • 文書数:26,725
  • タグ数:37,424,386
ランク TF DF タグ
1 3,770,558(10.08%) 26,691(99.87%) </a>
2 3,117,254( 8.33%) 26,390(98.75%) </div>
3 2,992,562( 8.00%) 26,676(99.82%) <a>
4 2,679,290( 7.16%) 20,604(77.10%) <br />
5 1,801,894( 4.81%) 15,595(58.35%) <br>
6 1,789,172( 4.78%) 20,337(76.10%) </span>
7 1,206,702( 3.22%) 14,319(53.58%) </td>
8 1,125,864( 3.01%) 20,110(75.25%) </li>
9 984,498( 2.63%) 19,519(73.04%) </p>
10 815,865( 2.18%) 13,293(49.74%) <td>

パッと見て思ったこと

本題とは関係ありませんが,<br> が出現する文書の割合と <br /> が出現する文書の割合とを合計すると 100% を超えてしまうところに釈然としないものを感じます.