2010-07-04から1日間の記事一覧

ruby タグで表記と読みのペアを抽出(できるかも)

HTML のルビ振り用タグ(<ruby>)は表記と読みのペアを抽出するのに使えそうな気がしたので,約 1000 万ページからルビを取り出してみました.ルビを使っているページ自体が少ないので,抽出できたルビはノイズや重複込みで約 800 万件,重複を除くと約 80 万件で</ruby>…