2008-06-01から1ヶ月間の記事一覧

熱暴走しそう

今日は,計算機より先に人の方が熱暴走しそうなほどの暑さです.とはいえ,7 月に入るまで冷房使用禁止という過酷な試練も,あと少しで終わります.これまでの苦難の道,一言で表すとすれば,「使ってもええやん」に集約されることでしょう.

ACM の学生会員向けサービス

ふと思い出したのですが,ACM の学生会員(Student Member)になると,Books24x7 を使うことができます.役に立つ書籍があるかどうかは別の話ですが….ACM Online Books and Courses - Books24x7 Listing http://pd.acm.org/books/b24x7_books.cfm洋書は高い…

DAWG 構築テストの結果

いくつか用意したキーワードから DAWG を構築して,DAWG のサイズと構築時間を調べてみました.テストには Core Duo L2500 1.83GHz を使っています. キーワード キーワード数 元サイズ DAWG サイズ 構築時間 Wikipedia 790,170 16,724 KB 11,868 KB 25 秒 …

サンプルつけました

とりあえず,DAWG のライブラリを使うサンプルを作成してみました.ついでに,文字列整列用ライブラリにも修正を入れてあります.http://nanika.osonae.com/Developing/index.html 変更点 sort_strings にて const 修飾を付与 const のつけ忘れを修正しまし…

DAWG 完成(未テスト)

それっぽい結果が得られたので,サンプルすら付いていない状態ですが,現段階で公開してみました.近いうちにテスト結果も併せて公開できるように努力します(便利な言葉). 以下の nanika_alpha.tgz です. http://nanika.osonae.com/Developing/index.htm…

DAWG 開発中

データ構造とアルゴリズムは完成して,実装もほぼ完了しました.残るはマルチバイト文字を扱う場合に文字境界をどうするか,インタフェースをどうするかという状態です.UTF-8 なら文字境界を気にしないで使えるけど,「EUC や SJIS なんて知りません」では…

DAWG を実装中

「キーワードの自動リンクが目的なら,単純なダブル配列より DAWG の方が効率的」などと思いついて,ただいま DAWG を実装しています.以前に手抜きしつつ実装したコードが残っていたので,それを参考にごにょごにょして,数日中には完成する予定です.

最小完全ハッシュについて,書いた後で思ったこと

数日前に書いた最小完全ハッシュの内容について, 今日になって考え直してみたところ, いろいろと変なところがあることに気付きました. 構築時の作業領域 多段ハッシュにすれば分散し放題なので,気にするまでもなさそうです. Web アーカイブに関する想定…

流行に乗り遅れてみる

少し前に最小完全ハッシュに関する内容を Web で見かけて,内容が気になっていたのですが,丁度良い機会があったのでスライドとしてまとめてみました.http://nanika.osonae.com/misc/index.html参考にした資料には以下のようなものがあります. Bep: 大規模…

はてなキーワード 検出用正規表現の展開

はてなキーワードを検出するための正規表現を展開して,キーワードの一覧を取り出すコードを以下の場所におきました.http://nanika.osonae.com/Developing/index.html http://nanika.osonae.com/Developing/hatena_keyword_decoder.tgzかろうじて動く程度の…