テキスト抽出と N-gram コーパス作成のツールを公開(nwc-toolkit 0.0.1)

日本語ウェブコーパスを作成するために開発したツールを改修したものを公開しました.テキストの抽出と N-gram コーパスの作成くらいしかできませんが,何かに使えるかもしれません.テキストの抽出については,http://s-yata.jp/apps/nwc-toolkit/text-extractor の中身になっています.

ライブラリをインストールする方法が環境によって異なることもあり,ドキュメントの作成には思いのほか手間がかかりました.

追記(2010-11-03):バグを修正しました.修正したものを nwc-toolkit 0.0.2 として公開しています.