Wikipedia のダンプをいじる

Wikipedia のダンプは,申請などを必要とせず,Web から普通にダウンロードできます.

規模は申し分なく,リンクやカテゴリなどにより構造化されている上,人手によって編集されているなど,興味深い特徴を兼ね備えているため,Wikipedia を対象とした研究もそれなりにあります.

…が,自分で実際に使ってみると,(特に英語版は)規模が大きすぎて手に余ったり,不正なタグがあって処理に困ったりと,一筋縄ではいきません.というわけで,どこで線引きするか少し悩んでいます.

※ リソースが少ないので妥協しないとやってられません.