2009-02-01から1ヶ月間の記事一覧

MySQL のデータ移行(メモ)

ウェブコーパスの格納に用いているマシンの HDD が使用率 70% に到達したため,容量の拡張について検討していました.その結果,現在の方法で HDD のみを増やしても,近いうちに性能的な問題が発生することが判明しました.というわけで,データベースとハー…

Perl の Thread を detach しないと…

join と detach のどちらもせずにスレッドを大量に作成してみたら,とんでもないことになりました.最近 Boost C++ の Thread を使っていたので,デストラクタで自動的に detach されるという先入観があったのです,と言い訳….追記:Compress::Zlib::memGun…

来月の予定

言語処理学会の年次大会と情報処理学会の全国大会に参加する予定です. 言語処理学会 第15回 年次大会 3月2日 〜 3月5日 http://nlp2009.anlp.jp/ 情報処理学会 第71回 全国大会 3月10日 〜 3月12日 http://www.ipsj.or.jp/10jigyo/taikai/71kai/index.html …

似非 RPC

大量のメモリを消費するライブラリの場合,普通のマシンで実行するのは難しいので,RPC(Remote Procedure Call)っぽいものを実装する簡単な方法がないか考え中です.それで,現在のところ,C++ では Boost と protobuf を組み合わせればいいかもしれないと…

修士論文公聴会 終わり

本年度の修士論文公聴会が無事に終了しました.約一ヶ月にわたり,修士論文の校正ばかりやっていたような気がします.他にも仕事はしていたつもりでしたが,ToDo リストがとんでもない状態になっています. 報告書とか,報告書とか,報告書とか….

boost::asio でネットワーク・プログラミング

boost::asio を使ってネットワーク・プログラミング(TCP)をしようと,MinGW にて簡単なプログラムを書いてみたところ,「初期化が遅いかも」ということが分かりました.今回の用途では大して問題にならないのでスルーしようと思いますが,繰り返し実行する…

今年の流行

M1 がインフルエンザにかかり,次いで B4 がインフルエンザにかかり,さらに M2 も熱っぽいとのことで病院に…. 発表会・公聴会が延期になるかもしれないという状況です.

一ヵ月半ぶりにコーパス収集の話

昨年から Web コーパスの収集を開始して,先ごろ,DB(MySQL)のサイズが 500GB に到達しました.ファイル本体は zlib で圧縮してから格納するようになっているので,本来のサイズは 800--900GB くらいになっていると思います.さて,いろいろと,どうしまし…

どうでもよさそうなこと

そういえば,Google のトップページが変わっていますね.あまり印象がなかったので何とも思っていませんでしたが,「急上昇ワード」は浮いているような気がします.firefox を使っていると,デフォルトで検索ボックスがある上に,空入力しても以下のページが…

1234567890 Day を祝おうか(ひとりで

スラッシュドット(http://slashdot.jp/)で見なければ,まず気付くことはありませんでしたが,なんとなくおめでたい気分になります.さすがにタイトルだけでは意味不明ですが,以下のページを見ると「なるほど」と思われることでしょう.コの業界では馴染み…

Darts-clone 0.32f rc1 をアップロード

修士論文のチェックに思いのほか時間がかかっていて,このままではしばらく先延ばしにしてしまいそうなので,RC1 ということでアップロードしてみました. http://code.google.com/p/darts-clone/ # n-yo さんにお渡ししたのとほぼ同じ内容ですが,ChaSen で…

なんでこんなことをしているのだろうか

本来なら自分の研究と関係ないのでアウトな気もしますが,修士論文のチェックをしています.研究の指導には全く手を出していないこともあり,修士論文にだけ口を出すことになるので「それはどうだろう?」というのも….その上,明らかに○○な内容なのに○○とか…

次は

Wikipedia の XML を Protocol Buffers に変換するツールでも公開しようかな…,なんて思っています.時間さえあれば….表とテンプレートは見なかったことにする上に nowiki も無視するなど,大雑把な仕様になっていますが,使えないことはないでしょう.

Darts-clone 0.32f をコミット

ダブル配列(double-array)ライブラリ darts clone の次期バージョン予定のソースコードを Subversion にコミットしました.内容は 2/6 の書き込み通りです. http://darts-clone.googlecode.com/svn n-yo さんに実験データ&アドバイスをいただいたおかげ…

もう少しで Darts-clone 0.32f を公開できそう

Darts-clone の新しいバージョンを来週にでも公開できそうです.これまでのバージョンとは方向性が異なり,特殊なデータに対して特化したものになります.一週間ほど前には既に動く状態になっていたものの,辞書を作成するときのメモリ消費が大きすぎるとい…

Left-leaning Red-Black Trees

いろいろなところで引用されています.実装が楽な赤黒木で,以下のスライドを見れば(むしろ,ほとんどコピーする感じで),簡単に実装できます. 論文 http://www.cs.princeton.edu/~rs/talks/LLRB/LLRB.pdf スライド http://www.cs.princeton.edu/~rs/talk…

Protocol Buffers を使う

XML は便利だけど,機能過多で使いにくいと思うことがあります.他にも,細かい情報を大量に詰め込むとファイルサイズが途端に大きくなるとか,効率が悪いとか,一部の文字はエンコードしないと格納できないとか,(利点も多いのですが)欠点もたくさんある…