2010-10-01から1ヶ月間の記事一覧

Darts-clone 0.32g rc1

Darts-clone を更新しました.ただし,更新の内容は,DARTS_VERSION というマクロの追加とコメントの追加だけです.動作の変更は特にありません. プロジェクト URL http://code.google.com/p/darts-clone/ 最新の darts.h http://darts-clone.googlecode.co…

テキスト抽出と N-gram コーパス作成のツールを公開(nwc-toolkit 0.0.1)

日本語ウェブコーパスを作成するために開発したツールを改修したものを公開しました.テキストの抽出と N-gram コーパスの作成くらいしかできませんが,何かに使えるかもしれません.テキストの抽出については,http://s-yata.jp/apps/nwc-toolkit/text-extr…

zlib, libbzip2, XZ Utils の比較

概要 zlib, libbzip2, XZ Utils に関するドキュメントを作成したので,各ライブラリによる圧縮・復元について,圧縮率,圧縮時間,復元時間を比較してみました.圧縮率は((圧縮後のサイズ)÷(圧縮前のサイズ))になっています. 各ライブラリに関するド…

頻度の閾値と N-gram 異なり数の関係

ある程度のテキストを入力として,頻度の閾値を変更したときに N-gram 異なり数がどのように変化するのかを表にしてみました.上端が Xgms の列は,1-gram から X-gram までの N-gram 異なり数を示しています.左端が N の行は,頻度 N 以上の N-gram 異なり…

xz-utils の使い方

zlib と libbzip2 に続いて,xz-utils (liblzma) についてもドキュメントを作成してみました.zlib や libbzip2 と違ってファイル I/O 用のインタフェースがないので,xz-utils の導入は少し難しいかもしれません.後,圧縮レベルを最大にしたときの圧縮時間…

zlib と libbzip2 の使い方

zlib と libbzip2 の使い方をちょろっとドキュメントにしてみました.他にも日本語のドキュメントがある zlib については微妙ですけど,libbzip2 については,日本語のドキュメントが見当たらないので多少は意味があるかもしれません.でも,libbzip2 を使う…

HTML からのテキスト抽出をウェブサービス化

日本語ウェブコーパスを処理するためのプログラムを改修しているのですが,HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので,HTML 文書からテキストを抽出するウェブサービスを公開してみました. http://s-yata.jp/apps/nwc-toolkit/…