タグの使用頻度を公開
ウェブコーパスにおけるタグの使用頻度をダウンロードできるようにしました.
- タグ使用頻度 - 日本語ウェブコーパス 2010
(抜粋)タグのカウントにおいては,タグ・属性の名前を小文字に統一し,class, id, name 以外の属性を取り除きました.例えば,<A HREF="index.html"> は <a> としてカウントされていますが,<a name="abc"> と <a> は別々にカウントされています.オープンタグとクローズタグは別々にカウントされているので,<a> の代わりに </a> の TF・DF を利用することも可能です.
調べたのは,単純な使用頻度(TF)と使用文書数(DF)です.ダウンロードできるファイルには,TF, DF, タグがタブ区切りで保存されています.
- | DF 10 以上 | DF 100 以上 | DF 1000 以上 |
---|---|---|---|
タグの異なり数 | 7,335,164 | 1,655,963 | 366,003 |
$ xz -cd tf-df.1000.xz | sort -rnk 2 | head -5 98018942 96534612 </title> 97813195 96403445 <title> 97303827 96210846 <head> 97435923 96167526 </head> 97366516 96105699 </html>
$ xz -cd tf-df.1000.xz | sort -rnk 2 | head -10000 | tail -5 66382 66377 <ul id="textLink"> 240661 66372 <div class="POST_ADMIN"> 128514 66366 <div class="more-wrap clearfix"> 66623 66356 <a name="628"> 253659 66355 <div class="associatelink_list">
ひょっとしたら,何かに使えるかも…?
# セクションターゲットについては準備中です.