2009-10-01から1ヶ月間の記事一覧

Succinct なトライの実験 その 2

昨日の実験結果(2009-10-29 - やた@はてな日記)は assert() が有効な状態で計測していたため,assert() を無効にした状態で再計測しました.また,Google n-gram コーパスを用いた結果を追加してあります. ID コーパス キー数 平均キー長(bytes) jawik…

Succinct なトライの実験

実験の概要 Succinct な木構造を用いてトライを実装すると,コンパクトな辞書を構築できます.しかし,検索速度の面では,その他のデータ構造に劣るという欠点を持ちます.そこで,いくつかのトライを C++ で実装し,ちょっとした性能テストをしてみました.…

Amazon EC2 のインスタンス追加と価格更新

Amazon Web Services からのメールにて,インスタンスタイプの追加と価格の更新についてのお知らせがありました.以下のページで確認できます. インスタンスについて http://aws.amazon.com/ec2/?ref_=pe_12300_13473310#instance 価格について http://aws.…

オープンソースカンファレンス@高知

11 月 14 日に高知でオープンソースカンファレンスがあるそうです.情報処理学会のメーリングリストにて数日前に連絡が来ていました.四国には初上陸ということで,行ってみるべきかどうか考え中です. オープンソースカンファレンス2009 Kochi - いらっしゃ…

ディスク I/O 負荷でフリーズ

今月に入ってからサーバが 2 回ほどフリーズしました.ここ数カ月は安定していたのですが,データが多くなって配置が分散し,ディスクにかかる負荷が高くなったことが原因と考えられます.以前にもディスクに負荷をかけたタイミングでフリーズすることが何度…

例文検索システム(お試し版)のメモ

大量のテキストファイルから特定のフレーズを含む文を検索するシステムです.Python の勉強が目的だったのか,システムの開発が目的だったのか,今となっては思い出せません.:Dブラウザからクエリの登録をしておいて,検索が完了したら結果をダウンロードで…

HTML 解析用ライブラリ

大量の HTML 文書を解析するために作成したライブラリとツールです.HTML 文書を解析して protocol buffers に変換したり,テキスト部分を抽出したり,リンクを抽出したりできます.入出力の文字コードは UTF-8 を想定しています.HTML 文書の解析といっても…

久しぶり

ずいぶんと久しぶりですが,その間に HTML の解析用プログラムを作成したり,大量の HTML 文書からテキストを抽出したり,簡易な検索システムを作成したり,お亡くなりになったサーバを片付けたり,他のサーバを引越しさせたり,DB をロールバックしたり,応…