2008-10-01から1ヶ月間の記事一覧

Wikipedia のダンプをいじる

Wikipedia のダンプは,申請などを必要とせず,Web から普通にダウンロードできます. Wikimedia Downloads http://download.wikimedia.org/ 規模は申し分なく,リンクやカテゴリなどにより構造化されている上,人手によって編集されているなど,興味深い特…

Unicode でも大丈夫みたい

Darts クローンを Unicode(UTF-16) で動作確認してみたら,特に問題なく動作しました.ただし,辞書サイズは大きくなるし,構築時間は長くなるし,隙間だらけだしと良いところが見つかりません.つまり,UTF-8 で使った方が良いということになります.辞書…

本日からはてなダイアリー市民です

〜 あなたは本日よりはてなダイアリー市民です 〜だそうです.わ〜い.…ん?

ネタもないので引っ張る

Darts クローンは ChaSen でも問題なく動作しました.ipadic-2.7.0 を UTF-8 に変換してから辞書を作成したとき, Darts を用いた chadic.da のサイズが 11,432,440 bytes なのに対し, Darts クローンを用いた chadic.da は 3,816,376 bytes になりました.…

MeCab に組み込んでみた

MeCab の Darts をクローンで置き換えてみたところ,特に問題なく動作しました.構築された辞書のサイズ(sys.dic のみ)を残しておきます. /usr/local/libexec/mecab/mecab-dict-index -d . -o . -f EUC-JP -t 文字コード 文字コード Darts Darts-clone sj…

大規模なキー集合を登録してみた

キーを 1000 万件くらい登録しようとすると std::bad_alloc でお亡くなりになったため,メモリの無駄遣いを減らすように修正しました(push_back で追加する前に reserve を呼び出すなど).後,std::sort() を std::stable_sort() に変更しました.これは,…

今度こそ「Darts のクローンを作成してみた」

Google Code のプロジェクトホスティングを使ってみました. darts-clone - Google Code http://code.google.com/p/darts-clone/ とりあえず作成してみて,簡単な動作確認までは済んでいます.Darts に付属の darts.cpp や mkdarts.cpp と組み合わせてみたと…

Darts のクローンを作成してみた

スポーツのダーツではなく,ライブラリの Darts です. Darts: Double-ARray Trie System http://chasen.org/~taku/software/darts/ かなり前から作成する計画はあったのですが,タイミング悪く邪魔が入って他のことをしている間に忘れてしまうという繰り返…

気がついたら 10 月

忙しい忙しいとか言っている間に一月以上が経過していて愕然としました.思い返してみると,何をやっていたのかいまいちパッとしないのですが,こういうときは「種を撒いていた」とか何とか,とりあえず意味の良く分からないことを言ってごまかすとしましょ…