日本語文字コード判定方法(力技)

形態素辞書 ipadic の見出し語を各文字コードSJIS, EUC, UTF-8)で DAWG に登録しておき,入力テキスト中に各文字コードの見出し語がどのくらい出現するかを求めます.後は,出現回数の多い文字コードを選択するだけです.このとき,DAWG のサイズは約 4MB になります.長い見出し語を除くなどすれば,もっと小さくすることも可能でしょう.

残る JIS の判定についてはエスケープ文字を使用し,UTF-16 については BOM を使用すれば,大体のテキストを正確に処理できます.

計算機の性能向上に頼った手法ですが,何の捻りもなく言語判定や文字コード判定を実現できるので,使い勝手は悪くないと思います.