2008-01-01から1年間の記事一覧

darts-clone 構築時間と検索時間の評価

darts-clone を使った場合の構築時間と検索時間を Wiki に追加しておきました. ProcessingTime - darts-clone - Google Code - 処理時間の比較. http://code.google.com/p/darts-clone/wiki/ProcessingTime ただし,使用した Darts clone は最新版のもので…

darts-clone のバグ

darts-clone の version 0.32c 以降では 64-bit 環境で問題があるようです. 検索性能の評価と併せて,近いうちに修正する予定です.# 時間がなかったので,32-bit 環境で簡単なテストをするだけで終わらせていました.と思ったら,64-bit 環境では make che…

Native Client

Google がブラウザ上で x86 のネイティブコードを実行する環境を提供しはじめたようです. Native Client - Google Code http://code.google.com/p/nativeclient/ 興味はあるけど,しばらく様子見します. Google、Webアプリでx86ネイティブコードを動作させ…

IE Temporary Internet Files の注意点

アクセスの遅い 2.5inch HDD を使っているノート PC では,Ramdisk を一時ファイル置き場として利用することにより,使い心地を大幅に向上できます.応答が速くなるだけでなく,HDD のアクセス回数が少なくなって静かになるという利点もあります.ただし,Ra…

発売日に品切れとは…

Programming: Principles and Practice Using C++ Bjarne Stroustrup 氏による C++ 本で,入門用として使えるように書かれているとのことです(私の記憶に間違いがなければ…). 以下のサイトで一部を読むことができます. Stroustrup: Programming -- Princ…

httpapi.lib を使ってみた

研究室内でも,簡単なデモをしたいときがあります. しかし,ノート PC では上手く動かないとか,性能的に厳しいということもあり,簡単に Web サービス化できると便利です.実際,開発環境が Linux のときは,簡単に Web サーバを構築できるので,何度か CG…

Darts クローンの更新

とりあえず,動いているようなので,darts-clone-0.32c.tar.gz をアップロードしました. 変更点 traverse() が利用可能になりました. traverse() により取得した位置から,exactMatchSearch() や commonPrefixSearch() による検索が可能になっています. …

traverse() を実装

darts-clone に traverse() を実装してみました. とりあえず Google Code の Subversion を更新してあります. http://code.google.com/p/darts-clone/ ※ Downloads の方には,問題が見つからなければ反映させる予定です.今のところ,32-bit 環境(sizeof(…

新しいダブル配列ライブラリを見つけた

ダブル配列のライブラリが新しく公開されているのを見つけました. 静的でコンパクトというコンセプトは darts-clone と被っちゃってますが,インタフェースは大きく異なっています. Não Aqui!: DASTrie 1.0 released http://www.chokkan.org/blog/archives…

MS Word を使っていて困ったこと

Excel からグラフをコピーすると書式がめちゃくちゃになる. アンカーに気をつけていないと図や表がワープする. 実はアンカーに気をつけていても図や表がワープする. ついでに図表番号がずれる. 図表の表示位置と実際の配置がずれていることがある. たま…

Wikipedia のダンプをいじる

Wikipedia のダンプは,申請などを必要とせず,Web から普通にダウンロードできます. Wikimedia Downloads http://download.wikimedia.org/ 規模は申し分なく,リンクやカテゴリなどにより構造化されている上,人手によって編集されているなど,興味深い特…

Unicode でも大丈夫みたい

Darts クローンを Unicode(UTF-16) で動作確認してみたら,特に問題なく動作しました.ただし,辞書サイズは大きくなるし,構築時間は長くなるし,隙間だらけだしと良いところが見つかりません.つまり,UTF-8 で使った方が良いということになります.辞書…

本日からはてなダイアリー市民です

〜 あなたは本日よりはてなダイアリー市民です 〜だそうです.わ〜い.…ん?

ネタもないので引っ張る

Darts クローンは ChaSen でも問題なく動作しました.ipadic-2.7.0 を UTF-8 に変換してから辞書を作成したとき, Darts を用いた chadic.da のサイズが 11,432,440 bytes なのに対し, Darts クローンを用いた chadic.da は 3,816,376 bytes になりました.…

MeCab に組み込んでみた

MeCab の Darts をクローンで置き換えてみたところ,特に問題なく動作しました.構築された辞書のサイズ(sys.dic のみ)を残しておきます. /usr/local/libexec/mecab/mecab-dict-index -d . -o . -f EUC-JP -t 文字コード 文字コード Darts Darts-clone sj…

大規模なキー集合を登録してみた

キーを 1000 万件くらい登録しようとすると std::bad_alloc でお亡くなりになったため,メモリの無駄遣いを減らすように修正しました(push_back で追加する前に reserve を呼び出すなど).後,std::sort() を std::stable_sort() に変更しました.これは,…

今度こそ「Darts のクローンを作成してみた」

Google Code のプロジェクトホスティングを使ってみました. darts-clone - Google Code http://code.google.com/p/darts-clone/ とりあえず作成してみて,簡単な動作確認までは済んでいます.Darts に付属の darts.cpp や mkdarts.cpp と組み合わせてみたと…

Darts のクローンを作成してみた

スポーツのダーツではなく,ライブラリの Darts です. Darts: Double-ARray Trie System http://chasen.org/~taku/software/darts/ かなり前から作成する計画はあったのですが,タイミング悪く邪魔が入って他のことをしている間に忘れてしまうという繰り返…

気がついたら 10 月

忙しい忙しいとか言っている間に一月以上が経過していて愕然としました.思い返してみると,何をやっていたのかいまいちパッとしないのですが,こういうときは「種を撒いていた」とか何とか,とりあえず意味の良く分からないことを言ってごまかすとしましょ…

ckw でプロンプトが消えないとき

Windows でコマンドプロンプトを使用する場合,ckw は便利なツールです.特に,ファイルのドロップが禁止されてしまった Vista では重宝します.Shift を押しながら右クリックして,さらにコンテキストメニューから「パスとしてコピー」を選択するなんて,説…

Visual Studio 2008 SP1

Visual Studio 2008 SP1 がダウンロードできるようになりました. http://www.microsoft.com/japan/msdn/vstudio/downloads/sp/vs2008/sp1/default.aspxもしかして,C++0x の内容が使えるようになるのでしょうか.未確認の状態ですが,期待しています.追記…

Google n-gram の検索

以前のエントリ(7/19)から既に 2 週間以上経過し,当初の計画より随分と簡単になって完成しました.通常の検索システムであれば転置インデックスを使いますが,相手が n-gram なので,転置 n-gram(インデックスじゃなくて n-gram 本体)を使います.つま…

眠たくて無理です

余りにも眠たいので,問題文の内容が頭に入ってきません. さすがに丑三つ時にもなると….

本日の失敗

ネットワークにつながらなくて不思議に思っていたら,LAN ケーブルが抜けていました.

Round 1 まで通過できそう

Google code jam の Round 1 に参加していました.注意不足や焦りによるミスもあったものの,なんとか Round 2 に進めそうです.ただし,今までの戦績からすると,Round 2 を超えることは難しそうです.開催時間(1:00am)もかなり辛いことまで含めると….

数学ガール/フェルマーの最終定理

7/30 に発売されるようです.前作「数学ガール」が面白かったので,続編が出るという情報を得て期待していました.ここは躊躇なくポチッと予約することにしましょう.

2GB を超えるファイルに対するシークは厄介なままでした.

ずいぶん前に,2GB を超えるファイルに対してシークをおこなうとき,fseek() の第二引数 offset が long(32bit)なおかげで苦労した記憶があります.久しぶりに同じようなことをすることになり,何か良い方法はないものかと探してみたのですが,以前と状況…

AOpen から新しいミニ PC

MP965-D の後継となるベアボーン MP45-D が,来月には発売されるようです.使っている PC がメモリ不足気味なので,新規購入を検討しています. MP45-D http://aopen.jp/products/baresystem/mp45d.html P8400 と 4GB のメモリを載せておけば,普段使うのと…

Code Jam

Qualification Round は通過という連絡が来ていました.Round 1 は来週か再来週になりそうです.参加より前に落選したのでは洒落にならないと思っていたので,通過できて安堵しました.

Google n-gram に索引を

Google n-gram のデータが大きすぎて,簡単には使えないとのことで,索引を付けてほしいと依頼されました.AND 検索ができれば OK とのことでしたが,規模が大きいので何か良い方法がないか模索中です.まとまっていませんが,以下,考えている方法です. Go…