2009-05-01から1ヶ月間の記事一覧

ブラウザから Graphviz が使えると便利かと

そもそも,まだ使ったことないのですが,とりあえず Graphviz を利用するための CGI プログラムを作成してみました.Vista では動かないという話を聞いたのが理由です.確認していませんけど….以下,メモ代わりです. #! /usr/bin/perl use strict; use war…

そういえば Darts 関連でメモ忘れ

Darts-0.31 から Darts-0.32 に更新してコンパイルエラーが出るときは,Darts::DoubleArray::build() の引数 key の型を const key_type ** から const key_type * const * に変更して,Darts::DoubleArray::key_ の型を const node_type_ ** から const nod…

上位下位関係抽出ツール実行完了

jawiki-20090527-pages-meta-current.xml.bz2 を対象として昨日の 17:15 に実行したのですが,今さっき完了しました.CPU は Pentium Dual-Core 2.5GHz で,実行時間は約 24 時間です.ただし,同時に別の重い処理を実行していたので,単体で動かせばこんな…

上位下位関係抽出ツール実行中

せっかく教えていただいたので,上位下位関係を抽出しています.どのくらいかかるのか分からない点が少し不安ですが,そのうち終わるでしょう. 上位下位関係抽出ツール: Hyponymy extraction tool http://nlpwww.nict.go.jp/hyponymy/index.html 私の環境(…

Wikipedia のカテゴリは深い(いろんな意味で)

Wikipedia のダンプ(XML )からカテゴリ情報を取り出して,何かに使えないかといろいろ試していたのですが,やはりカテゴリが多すぎて使いにくいようです.他にも,カテゴリのグラフ構造が Cyclic になっていることも扱いを困難にしています.カテゴリのグ…

protobuf が更新されてる

いつの間にやら protobuf が 2.0.3 から 2.1.0 に更新されていました.オブジェクトを初期化するためのメンバ関数 Clear() や,ポインタと文字列長の指定により文字列を更新するメンバ関数なんかが追加されているようです.ByteSize() はシリアライズしたと…

風邪ひき

症状は頭痛,寒気,吐き気くらいで,一日寝ていたら,かなり楽になりました.おそらくインフルエンザではないでしょう. とはいえ,まだ体がだるく,無理すると再び寝込むことになりそうなので,今日は適当に過ごすことにします.

そろそろ機種変更しようかな

携帯電話の電池がすぐに切れるようになり,わざわざ電池だけを交換するというのもなんとなく嫌なので,機種変更しようかと思いました. …が,うまいこと操られているような気がして,電池交換だけにした方がよいかもしれないという気もしてきました.もう少…

日本語文字コード判定方法(力技)

形態素辞書 ipadic の見出し語を各文字コード(SJIS, EUC, UTF-8)で DAWG に登録しておき,入力テキスト中に各文字コードの見出し語がどのくらい出現するかを求めます.後は,出現回数の多い文字コードを選択するだけです.このとき,DAWG のサイズは約 4MB…

ワイリー(サーバの名前)がお亡くなりに

5 年物のサーバが寿命に達したらしく,起動すらしなくなってしまいました.自分の管理しているマシンがお亡くなりになったのは,これが初めてです.復旧については,使われていない同型機(こちらも 5 年物)があったので,HDD を入れ替えるだけでほぼ完了し…

キーワード補完は人気なのか

「darts-clone は,なんでキー補完(autocomplete)できないの?」という内容のメールを受け取りました.同様の内容で 2 件目なので,キーワード補完に対する要望は,それなりにあるようです. Autocomplete - Wikipedia, the free encyclopedia http://en.w…

ただ大きい

データベースの規模が 1 億レコード & 1TB に到達しました.テーブルの構成自体は非常にシンプルなものですが,サイズが大きいという一点において厄介な存在です.スナップショットを別の HDD にコピーするだけで 5 時間以上かかるし,1TB の HDD では収まら…

dawgdic-0.20 を dawgdic-0.21 に更新

dawgdic-0.10 と dawgdic-0.20 でファイルサイズが随分違うなー,と思っていたら,COPYING が BSD ライセンスじゃなくて GPL になっていました.なんと恐ろしい….というわけで,修正したものを dawgdic-0.21 としました.ついでに,Dawg の検索機能を消した…

Google Code Wiki の多言語対応

Google Code の Wiki では,ユーザの環境によって英語と日本語の表示を切り替えることができます.方法は,Subversion で Wiki 用のディレクトリ(wiki/)に言語コードを名前とするディレクトリ(wiki/ja/)を作成して,指定した言語の Wiki をテキストファ…

ドキュメントの適正量とは

ドキュメントが少なくて困るということは多いと思います.しかし,ドキュメントが多いと,更新を反映するだけでも一苦労になってしまいます.実際には,更新が反映されなくなる状況が多いかもしれません.プロジェクトの規模(コード量や開発者数,利用者数…

最近ニュースを真面目にチェックしていなかったんだけど…

新型インフルエンザの流行は思いのほか広がっているようですね.これだけ多いと,危険情報が出ていない国での国際会議を選ぶというのは,ほぼ不可能です. 外務省 海外安全ホームページ//感染症(SARS・鳥インフルエンザ等)関連情報 http://www.anzen.mof…

dawgdic はキーワード自動リンクに最適かも

dawgdic は,キーに対してレコードを割り当てない場合(正確にはすべてのキーに対して同じ値をレコードとして割り当てる場合),かなり辞書を圧縮できます.その上,検索速度も Darts と同等になるはずなので,キーワード自動リンクには最適かもしれません.…

dawgdic-0.1.0 から dawgdic-0.2.0 に更新

構築アルゴリズムの変更により,DAWG の構築にかかる時間が短縮され,作業領域が削減されています.また,キーを登録するときの順序は,辞書順固定になっています.なお,ダブル配列の要素数は上限 2^29 = 約 5 億 3 千万です.非常に大規模な DAWG を構築し…

フリーズの原因は何だろう

Ubuntu 8.10 server にて,smbclient で他の Linux から巨大なファイル(800GB)をダウンロードしているとき,システム全体を巻き込んでフリーズということが二度ほど起きました.接続先の samba については特に問題なく動作しているようなので,おそらくク…