2009-01-01から1ヶ月間の記事一覧

Excel で UTF-8 の csv が文字化けして困る,それと謎

そんなときは,まず拡張子を csv から txt に変換します.それから,ファイルを指定せずに Excel を起動して,メニューからファイルを開いてみましょう.文字コードや区切り文字を指定することができます.数字が日付として解釈されて困るときなどにも使える…

新しいのが動いた

特化型の Darts clone が動くようになりました.実験をしてみたところ,時間・空間の両面でおおむね予測通りの性能になっていて,少しホッとしました.大体そんな感じの一日でした.今日はよく眠れそうです.

Yahoo! の関連検索ワードをクエリログと表現するのは?

Yahoo! の関連検索ワードを「クエリログ」として用いた論文があるけれど,そういう捉え方をしてもいいのか,微妙な気がするという話です. Yahoo!デベロッパーネットワーク - 検索 - 関連検索ワード http://developer.yahoo.co.jp/webapi/search/assistsearc…

ChaSen での動作確認を忘れていました

Darts clone 0.32e を ChaSen に組み込めるように修正しました. 後,処理時間に関する部分を除き,Wiki の内容を更新しました. darts-clone - Google Code http://code.google.com/p/darts-clone/

引きこもり度数が上がっているので…

おでかけします.というか,つい先日参加登録をしたところなのに,あやうく存在を忘れるところでした. 文部科学省情報爆発プロジェクト成果報告会(H20年度) http://www.infoplosion.nii.ac.jp/info-plosion/html/houkokukai-h20/ あれ,そういえば….

峠は越えただろうか

徹夜に近い状態で〆切の数時間前に原稿ができ上がるというギリギリなことをしてしまい,かなり疲れました.とりあえず睡眠を…. 係り受け用のダブル配列については,とりあえずイメージができあがりました.今回の 0.32e で投入した手法と以前に使ったことの…

Darts-clone 0.32e の改良

commonPrefixSearch() と traverse() を少しでも高速化すべく,少し変更を加えてみました.最新版は Subversion にアップロードしてあります. Revision 37: /trunc http://darts-clone.googlecode.com/svn/trunk/ commonPrefixSearch() と traverse() を使…

Darts-clone 0.32e バグ修正

traverse() にバグが見つかったので,修正版を Subversion にアップロードしました. darts-clone - Google Code http://code.google.com/p/darts-clone/source/checkout 修正前の状態では,サフィックスと入力文字列が異なるとき,-2 を返すべき状況でも -1…

Darts-clone 0.32e

Darts-clone の最新版(0.32e)を Subversion にアップロードしました. darts-clone - Google Code http://code.google.com/p/darts-clone/source/checkout 辞書のサイズや構築時間と検索時間の計測結果も更新しました.実験環境が良くなかったので少し怪し…

darts-clone 改良中

新しいアイデアを思いついたので,darts-clone を改良しています.現在の darts-clone では,設計段階で小規模なデータを想定していたため,大規模なデータに対しては HugeDoubleArray で対応するようになっています.その実装は, 5 bytes も割り当てれば十…

darts-clone-0.32d

ダブル配列の構築に関する更新がたまっていたので,反映させておきました. darts-clone - Google Code http://code.google.com/p/darts-clone/ 前バージョン(0.32c)と比較すると,辞書サイズは少し大きくなりますが,構築時間が短くなります.また,構築…

コーパスの収集と HDD

研究室内では,ウェブ検索結果のサマリや Jaccard 係数を使うことが多くて,Yahoo! のウェブ検索 Web API を使わせていただいています.そして,ウェブ検索の副産物として大量の URL が手に入ったので,Web ページを収集して大規模なコーパスを作成すること…