Wikipedia のカテゴリは深い(いろんな意味で)

Wikipedia のダンプ(XML )からカテゴリ情報を取り出して,何かに使えないかといろいろ試していたのですが,やはりカテゴリが多すぎて使いにくいようです.他にも,カテゴリのグラフ構造が Cyclic になっていることも扱いを困難にしています.

カテゴリのグラフをトップダウン的に辿ってみたのですが,例えば,以下のようなパスが出てきました.主要カテゴリ(最上位カテゴリ)から下位カテゴリへと探索することで絞り込みをしているつもりが,大きく異なるカテゴリに飛んでしまっています.使える情報を取り出そうとすると,かなりの手を加える必要がありそうです.

主要カテゴリ → 文化 → 人文科学 → 心理学 → コミュニケーション → 人間とコンピュータの相互作用 → 仮想世界 → フィクション → フィクションのジャンル → ミステリ → オカルト → 文化人類学暦法 → 世紀 → 20世紀 → 20世紀哲学 → 科学哲学 → 方法論 → 表現技術 → 文書作成 → 出版 → 図書館 → 公文書館 → 媒体 → ビデオ → 映像技術 → 画像処理 → グラフィックデザイン → 図 → シンボル → 国の象徴 → 君主 → 君主国 → 帝国 → 大日本帝国 → 内地 → 本州 → 関東地方 → 東京都 → 東京都区部特別区練馬区練馬区の企業 → 東映アニメーションONE PIECEONE PIECEの登場人物 → ONE PIECEの海賊 → 麦わら海賊団

後,カテゴリが構成するグラフの全体像を見る方法はないので,人手による編集で質を高めていくのは難しいだろうとも感じました.