テキスト抽出と N-gram コーパス作成のツールを公開(nwc-toolkit 0.0.1)
日本語ウェブコーパスを作成するために開発したツールを改修したものを公開しました.テキストの抽出と N-gram コーパスの作成くらいしかできませんが,何かに使えるかもしれません.テキストの抽出については,http://s-yata.jp/apps/nwc-toolkit/text-extractor の中身になっています.
- プロジェクト
- ドキュメント
ライブラリをインストールする方法が環境によって異なることもあり,ドキュメントの作成には思いのほか手間がかかりました.
追記(2010-11-03):バグを修正しました.修正したものを nwc-toolkit 0.0.2 として公開しています.