タグの使用頻度を公開

ウェブコーパスにおけるタグの使用頻度をダウンロードできるようにしました.

(抜粋)タグのカウントにおいては,タグ・属性の名前を小文字に統一し,class, id, name 以外の属性を取り除きました.例えば,<A HREF="index.html"> は <a> としてカウントされていますが,<a name="abc"> と <a> は別々にカウントされています.オープンタグとクローズタグは別々にカウントされているので,<a> の代わりに </a> の TF・DF を利用することも可能です.

調べたのは,単純な使用頻度(TF)と使用文書数(DF)です.ダウンロードできるファイルには,TF, DF, タグがタブ区切りで保存されています.

- DF 10 以上 DF 100 以上 DF 1000 以上
タグの異なり数 7,335,164 1,655,963 366,003
$ xz -cd tf-df.1000.xz | sort -rnk 2 | head -5
98018942	96534612	</title>
97813195	96403445	<title>
97303827	96210846	<head>
97435923	96167526	</head>
97366516	96105699	</html>
$ xz -cd tf-df.1000.xz | sort -rnk 2 | head -10000 | tail -5
66382	66377	<ul id="textLink">
240661	66372	<div class="POST_ADMIN">
128514	66366	<div class="more-wrap clearfix">
66623	66356	<a name="628">
253659	66355	<div class="associatelink_list">

ひょっとしたら,何かに使えるかも…?

# セクションターゲットについては準備中です.