空調の修理とともに暑くなる

2 月の寒い時期に研究室の空調が故障して,急に気温が高くなったその日に修理が完了したので,人生とはままならないものだと感じました.

それと,急に気温が高くなって体調を崩しました.頭がボーッとしてしまい,働いてくれません.

大規模トライ用のライブラリ

ドキュメントはどうしましょうか.うむむ….

追記(2010-02-28):mmap() を使ってトライ→トライ変換のメモリ消費を抑えたらどうかと試して見たところ,SSD を使ったとしても,メモリ上に展開した場合の 2, 3 倍の時間がかかることが分かりました.仕方がないので,変換元のトライはメモリ上に展開するという従来の方針を採用します.

# ファイルの先読み機構を自前で用意すれば速度を出せると思うのですが,実装に手間がかかりすぎると判断して中止しました.

ssgnc の改修

索引を構築するところは改修できました.残るは検索用のインタフェースです.

追記(2010-02-28):索引を構築するのに要した時間は以下のとおりです.構築環境の主要な構成は,Pentium Dual Core 2.5GHz と 1TB の HDD が 1 台です.一時ファイルの置き場所を別の HDD にしたり SSD にしたりすれば,もう少し短時間で構築できると思います.

英語版(約 7 時間)
real	421m5.942s
user	302m31.590s
sys	29m30.200s

日本語版(約 7 時間半)
real	453m21.200s
user	313m53.400s
sys	33m12.000s

索引のサイズは以下のようになりました.

$ ls -l en ja
en:
合計 115826792
-rw-r--r-- 1 xxxx xxxx   188716796 2010-02-26 14:30 1gms.db
-rw-r--r-- 1 xxxx xxxx  3788030028 2010-02-26 14:43 2gms.db
-rw-r--r-- 1 xxxx xxxx 19768460180 2010-02-26 16:07 3gms.db
-rw-r--r-- 1 xxxx xxxx 41000660764 2010-02-26 18:36 4gms.db
-rw-r--r-- 1 xxxx xxxx 53432741516 2010-02-26 21:30 5gms.db
-rw-r--r-- 1 xxxx xxxx   193324040 2010-02-26 14:30 vocab.dic
-rw-r--r-- 1 xxxx xxxx   234644984 2010-02-26 14:30 vocab.idx

ja:
合計 144971228
-rw-r--r-- 1 xxxx xxxx    32775140 2010-02-26 21:30 1gms.db
-rw-r--r-- 1 xxxx xxxx   891667596 2010-02-26 21:33 2gms.db
-rw-r--r-- 1 xxxx xxxx  7540775940 2010-02-26 22:03 3gms.db
-rw-r--r-- 1 xxxx xxxx 21017484676 2010-02-26 23:18 4gms.db
-rw-r--r-- 1 xxxx xxxx 33351133732 2010-02-27 01:04 5gms.db
-rw-r--r-- 1 xxxx xxxx 40725540820 2010-02-27 03:03 6gms.db
-rw-r--r-- 1 xxxx xxxx 44743004820 2010-02-27 05:03 7gms.db
-rw-r--r-- 1 xxxx xxxx    76779528 2010-02-26 21:30 vocab.dic
-rw-r--r-- 1 xxxx xxxx    71307560 2010-02-26 21:30 vocab.idx