ruby タグで表記と読みのペアを抽出(できるかも)

HTML のルビ振り用タグ(<ruby>)は表記と読みのペアを抽出するのに使えそうな気がしたので,約 1000 万ページからルビを取り出してみました.ルビを使っているページ自体が少ないので,抽出できたルビはノイズや重複込みで約 800 万件,重複を除くと約 80 万件でした.

ルビの例を以下に示します.左側が元の文字列で,右側がルビです.

文字化	もじか
文字化	もじば
文字化	モジカ
文字化	モジバ
文字塔	もじとう
文字塔二基	もじとうにき
文字太夫	もじだゆう
文字弁道	もんじべんどう
文字式	もじしき
文字手摺昔人形	もじてずりむかしにんぎやう
文字打ち労務	シナリオ
文字揃	もじそろ
文字摺	もじずり
文字摺石	もじずりいし
文字数	もじすう
文字数	モジスウ
文字春	もじはる
文字有	おじあ
文字校正	もじこうせい
文字欄	もじらん
文字無	もじな
文字焼	もんじやき
文字版	もじばん
文字盤	もじばん
文字盤	モジバン
文字種	もじしゅ
文字編	もじへん
文字般若	もじはんにゃ
文字色	もじいろ
文字色	もじしょく
文字蔵	もじぞう
文字表現	ライティング
文字言語	もじげんご
文字言語	エクリチュール
文字通	もじどお
文字通	もじどおり
文字通	もじどほ
文字通り	もじどお
文字通り	もじどおり
文字通りの意味で	・・・・・・・・
文字量	モジリョウ
文字鏡	もじきょう
文字面	もじづら
文孝	ふみたか
文孝	フミタカ
文学	ぶんがく
文学	ぶんぐぁく
文学	ブンガク
文学	ブンガクカイ
文学	ブンガクブ

タグが正しく閉じられていない場合,強調のためだけに使われている場合,ひらがなとカタカナの表記揺れがある場合,歴史的仮名遣いになっている場合,当て字になっている場合などがあります.

使えるかと問われると微妙なところです.