2009-03-23から1日間の記事一覧

ウェブコーパスからの HTML 抽出

MySQL からデータを取り出すだけなので,かなり簡単です.でも,置き場所を確保するのを忘れていました.仕方がないので,一部だけ取り出して,TSUBAKI の標準フォーマット変換ツールを試してみようと思います.

Darts-clone の追加機能をテスト

とりあえず,実装してみたところ,すんなりと動きました.評価をするのが面倒です….

Google n-gram 検索システム

インデックス構築用のプログラムは修正完了しました.途中で力尽きたので,手抜きになっている部分もありますが,以前と比べればマシになっています.ただし,動作環境は 64-bit な Linux に限定してしまいました.検索用のクラスも作成できたので,CGI 用の…

今週中に片付けたいこと

案の定,先週の「来週までに片付けたいこと」が未完成です.