空調の修理とともに暑くなる
2 月の寒い時期に研究室の空調が故障して,急に気温が高くなったその日に修理が完了したので,人生とはままならないものだと感じました.
それと,急に気温が高くなって体調を崩しました.頭がボーッとしてしまい,働いてくれません.
大規模トライ用のライブラリ
ドキュメントはどうしましょうか.うむむ….
追記(2010-02-28):mmap() を使ってトライ→トライ変換のメモリ消費を抑えたらどうかと試して見たところ,SSD を使ったとしても,メモリ上に展開した場合の 2, 3 倍の時間がかかることが分かりました.仕方がないので,変換元のトライはメモリ上に展開するという従来の方針を採用します.
# ファイルの先読み機構を自前で用意すれば速度を出せると思うのですが,実装に手間がかかりすぎると判断して中止しました.
ssgnc の改修
索引を構築するところは改修できました.残るは検索用のインタフェースです.
追記(2010-02-28):索引を構築するのに要した時間は以下のとおりです.構築環境の主要な構成は,Pentium Dual Core 2.5GHz と 1TB の HDD が 1 台です.一時ファイルの置き場所を別の HDD にしたり SSD にしたりすれば,もう少し短時間で構築できると思います.
英語版(約 7 時間) real 421m5.942s user 302m31.590s sys 29m30.200s 日本語版(約 7 時間半) real 453m21.200s user 313m53.400s sys 33m12.000s
索引のサイズは以下のようになりました.
$ ls -l en ja en: 合計 115826792 -rw-r--r-- 1 xxxx xxxx 188716796 2010-02-26 14:30 1gms.db -rw-r--r-- 1 xxxx xxxx 3788030028 2010-02-26 14:43 2gms.db -rw-r--r-- 1 xxxx xxxx 19768460180 2010-02-26 16:07 3gms.db -rw-r--r-- 1 xxxx xxxx 41000660764 2010-02-26 18:36 4gms.db -rw-r--r-- 1 xxxx xxxx 53432741516 2010-02-26 21:30 5gms.db -rw-r--r-- 1 xxxx xxxx 193324040 2010-02-26 14:30 vocab.dic -rw-r--r-- 1 xxxx xxxx 234644984 2010-02-26 14:30 vocab.idx ja: 合計 144971228 -rw-r--r-- 1 xxxx xxxx 32775140 2010-02-26 21:30 1gms.db -rw-r--r-- 1 xxxx xxxx 891667596 2010-02-26 21:33 2gms.db -rw-r--r-- 1 xxxx xxxx 7540775940 2010-02-26 22:03 3gms.db -rw-r--r-- 1 xxxx xxxx 21017484676 2010-02-26 23:18 4gms.db -rw-r--r-- 1 xxxx xxxx 33351133732 2010-02-27 01:04 5gms.db -rw-r--r-- 1 xxxx xxxx 40725540820 2010-02-27 03:03 6gms.db -rw-r--r-- 1 xxxx xxxx 44743004820 2010-02-27 05:03 7gms.db -rw-r--r-- 1 xxxx xxxx 76779528 2010-02-26 21:30 vocab.dic -rw-r--r-- 1 xxxx xxxx 71307560 2010-02-26 21:30 vocab.idx