文字コード判定プログラム

文字コード判定プログラムを作成してみました.

デフォルトでは,ひらがなとカタカナだけを見て文字コードを判定します.最初に ipadic のアーカイブを指定すれば,ipadic から文字コード判定用の辞書を作成します.

./configure --with-ipadic=ipadic-x.y.z.tar.gz
make
sudo make install

  • インストール内容
    • コマンド mojicode
      • 指定したファイルの文字コードを推測して出力します.
      • 引数でファイルを指定しなければ標準入力を使います.
      • オプション -h で使い方を表示します.
    • ライブラリ libmojicode.a
    • ヘッダ mojicode.h

注意:日本語以外を入力すると,(悪い意味で)適当な文字コードを返します.

追記(2009-08-04):ヘッダの名前が明らかにおかしかったので修正しました.
->
->
後,閾値を少し高くしました.