2009-01-01から1年間の記事一覧

そろそろ機種変更しようかな

携帯電話の電池がすぐに切れるようになり,わざわざ電池だけを交換するというのもなんとなく嫌なので,機種変更しようかと思いました. …が,うまいこと操られているような気がして,電池交換だけにした方がよいかもしれないという気もしてきました.もう少…

日本語文字コード判定方法(力技)

形態素辞書 ipadic の見出し語を各文字コード(SJIS, EUC, UTF-8)で DAWG に登録しておき,入力テキスト中に各文字コードの見出し語がどのくらい出現するかを求めます.後は,出現回数の多い文字コードを選択するだけです.このとき,DAWG のサイズは約 4MB…

ワイリー(サーバの名前)がお亡くなりに

5 年物のサーバが寿命に達したらしく,起動すらしなくなってしまいました.自分の管理しているマシンがお亡くなりになったのは,これが初めてです.復旧については,使われていない同型機(こちらも 5 年物)があったので,HDD を入れ替えるだけでほぼ完了し…

キーワード補完は人気なのか

「darts-clone は,なんでキー補完(autocomplete)できないの?」という内容のメールを受け取りました.同様の内容で 2 件目なので,キーワード補完に対する要望は,それなりにあるようです. Autocomplete - Wikipedia, the free encyclopedia http://en.w…

ただ大きい

データベースの規模が 1 億レコード & 1TB に到達しました.テーブルの構成自体は非常にシンプルなものですが,サイズが大きいという一点において厄介な存在です.スナップショットを別の HDD にコピーするだけで 5 時間以上かかるし,1TB の HDD では収まら…

dawgdic-0.20 を dawgdic-0.21 に更新

dawgdic-0.10 と dawgdic-0.20 でファイルサイズが随分違うなー,と思っていたら,COPYING が BSD ライセンスじゃなくて GPL になっていました.なんと恐ろしい….というわけで,修正したものを dawgdic-0.21 としました.ついでに,Dawg の検索機能を消した…

Google Code Wiki の多言語対応

Google Code の Wiki では,ユーザの環境によって英語と日本語の表示を切り替えることができます.方法は,Subversion で Wiki 用のディレクトリ(wiki/)に言語コードを名前とするディレクトリ(wiki/ja/)を作成して,指定した言語の Wiki をテキストファ…

ドキュメントの適正量とは

ドキュメントが少なくて困るということは多いと思います.しかし,ドキュメントが多いと,更新を反映するだけでも一苦労になってしまいます.実際には,更新が反映されなくなる状況が多いかもしれません.プロジェクトの規模(コード量や開発者数,利用者数…

最近ニュースを真面目にチェックしていなかったんだけど…

新型インフルエンザの流行は思いのほか広がっているようですね.これだけ多いと,危険情報が出ていない国での国際会議を選ぶというのは,ほぼ不可能です. 外務省 海外安全ホームページ//感染症(SARS・鳥インフルエンザ等)関連情報 http://www.anzen.mof…

dawgdic はキーワード自動リンクに最適かも

dawgdic は,キーに対してレコードを割り当てない場合(正確にはすべてのキーに対して同じ値をレコードとして割り当てる場合),かなり辞書を圧縮できます.その上,検索速度も Darts と同等になるはずなので,キーワード自動リンクには最適かもしれません.…

dawgdic-0.1.0 から dawgdic-0.2.0 に更新

構築アルゴリズムの変更により,DAWG の構築にかかる時間が短縮され,作業領域が削減されています.また,キーを登録するときの順序は,辞書順固定になっています.なお,ダブル配列の要素数は上限 2^29 = 約 5 億 3 千万です.非常に大規模な DAWG を構築し…

フリーズの原因は何だろう

Ubuntu 8.10 server にて,smbclient で他の Linux から巨大なファイル(800GB)をダウンロードしているとき,システム全体を巻き込んでフリーズということが二度ほど起きました.接続先の samba については特に問題なく動作しているようなので,おそらくク…

実行効率と実装効率に関するひとりごと

(研究で)アルゴリズムを考えるときは実行効率を重視するのですが,実装のしやすさやバグの入りにくさのような,実装効率を度外視したものになることがあります.しかし,実用的なことを考えると,実装効率の方が重要になることも多いでしょう.というよう…

構築については効率化できる

dawgdic の構築はもっと効率化できるようなので,後日(おそらく来週),改良したバージョンを公開することになると思います.

C++ DAWG Dictionary Library の Readme

先週公開したライブラリ dawgdic のドキュメントを作成しました.まだ細かい説明はできていませんが,基本的な使い方は分かるようになっていると思います. dawgdic - Google Code http://code.google.com/p/dawgdic/ Readme - dawgdic - Google Code http:/…

〆切つきの書類が出てきた…

二週間以上前に届いていた書類の存在に今更気づいて開封してみたところ,月末までに 1,600 〜 2,400 字以上の文章を書いて提出せよという内容でした.〆切が見事なまでに重なっています.その上,文字数が多すぎです.書くべき内容は漠然としているし,そん…

C++ DAWG Dictionary Library を公開

darts-clone 0.32f の実装が落ち着いてきたので,Darts とは異なるインタフェースを与えて,別のライブラリとして公開しました.従来通り,C++ のヘッダライブラリとなっています. dawgdic - Google Code http://code.google.com/p/dawgdic/ まだドキュメン…

VC++ で protobuf

研究室内で使うためのライブラリに protobuf を導入してみたところ,VC++ 用に protobuf をインストールする方法が分からないと苦情がきました.仕方がないので,インストール方法のような何かを作成してみました.Visual Studio 2005 & 2008 では大丈夫だと…

ダブル配列の資料(更新に関する内容)

ダブル配列の資料にスターが付いているようなので,関連する資料も公開することにしました.今回の資料は,情報処理学会第 71 回全国大会で使用したスライドで,ダブル配列の更新に関する内容となっています. ダブル配列による動的辞書の構成と評価 http://…

ダブル配列の資料(ミス修正)

勉強会の最中に間違いがいくつか見つかったため,少しだけ修正しました. 勉強会資料 ダブル配列(PDF) http://sites.google.com/site/headdythehero/cabine/2009/0417/Double-array.pdf?attredirects=0 修正箇所 キー検索手法の比較にて順番を修正 二分木…

書類は不得手

どうも書類を書くのは好きになれず,いつも〆切が近くなるまで引っ張ってしまいます.「パーキンソンの法則」の第一法則を避けるための手段と言い訳でもしたくなるほどに….# 「パーキンソンの法則」は読み物として面白いと思います.

2009 年度の論文一つ目

別の作業をしていて間違ってファイルを消したり,提出しなければならない書類の存在を思い出したり,といろいろハプニングがありました(というか自分で起こしました)が,なんとか FIT2009 投稿用の論文ができました.月末までにもう一つ書き上げる予定なの…

C++ スタイルガイド

Google のコーディングに関するスタイルガイドです.ないかなーと思って探してみると見つかりました.昨年(2008 年)の 8 月には公開されていたようで,日本語訳も有志により公開されています. google-styleguide - Google Code http://code.google.com/p/…

darts-clone のアプリケーション

メールは英語でしたが,サイトの方は中国語がメインのようで,読めません.Darts-clone をいじったのが使われているはずです. sphinx-for-chinese - Google Code http://code.google.com/p/sphinx-for-chinese/ まったく関係ありませんが,お昼寝したい気分…

Vista のネットワーク・エラー

Vista を使っていてネットワークがつながらなくなり,再起動しても,Linux で起動しても回復しないということがあり,電源コードを引っこ抜いて指し直したら,無事につながるようになりました.ということが,研究室の PC でありました.Vista が原因なのか…

ダブル配列に関する資料

研究室に配属された学部生向けの資料です.勉強会自体は二週間後なのですが,忙しくなりそうなので,先に用意してみました. 勉強会資料 ダブル配列(PDF) http://sites.google.com/site/headdythehero/cabine/2009/0403/Double-array.pdf 無駄に長くなって…

ハッシュの話で思い出した資料

以前,「もっと小さい辞書構造ないかなー」という話があって,「完全ハッシュをコンパクトに実現する手法がありますよ」(Bep のこと)なんて軽く返したところ,「学部生にも分かるように説明して」などと冗談のような返しをされて凹んだことがありました.…

Darts-clone 0.32f の辞書構築を高速化

Darts-clone 0.32f において,レコードを指定したダブル配列の構築を高速化しました.状況により違いはありますが,キー数が 10 万から 1000 万程度の場合,構築時間が 1/2 から 1/3 程度に短縮されます. darts-clone - Google Code http://code.google.com…

ファイル共有と Media Player のなぞ

Windows Vista にて,Windows Media Player が起動していると,ファイル共有の速度が 1/10 程度まで遅くなります.

Google N-gram の検索システム(3/31 に間に合った)

Google N-gram の検索システムを Google Code にて公開しました. ssgnc - Google Code http://code.google.com/p/ssgnc/ 「そもそも Google N-gram を持っている人がどれだけいるの?」ということを真面目に考えると悲しくなるのでやめておきましょう.など…