2010-08-01から1ヶ月間の記事一覧

N-gram 検索システムにおける頻度の丸めについて

新しい SSGNC では,頻度情報は上位 3 桁のみを残して,4 桁目以降の細かい数値は切り捨てるようにしています.理由は,あまり細かい値を持たせても使い道がないことと,元になっているコーパスの質が良くないことです.ウェブ上のテキスト自体に偏りがあっ…

N-gram 検索システム(一時的)

概要 SSGNC の改修が一段落して動く状態になったので,形態素 N-gram コーパス(形態素 N-gram コーパスの修正版 - やた@はてな日記)を対象とする検索システムを一時的に公開しています. N-gram 検索システム http://s-yata.jp/ssgnc/word: http://s-yata…

gcc で返り値の確認忘れに警告を出す(warn_unused_result)

以前,liblzma のヘッダを眺めているときに気づいたのですが,gcc 3.4 以降では,warn_unused_result という属性を関数に与えておくと,返り値を確認していない場合に警告を出してくれるようです.わざわざエラーコードを返すような設計にしても,手抜きで確…

図書館ウェブサイトに対するアクセスの件

概要 簡単にまとめてしまうと,逮捕された男性のプログラムには違法性がなく,むしろウェブサイト側のプログラムに不具合があり,その不具合のせいでウェブサイトがダウンしていたのではないかという話でした.…が,いろいろと記事が追加されて,「不具合が…

お昼に徒歩で出かけるのは止めようと反省

「暑いー」「だるいー」と無駄に愚痴を言わずにはいられないほどの猛暑が続いています.「暑いー」「だるいー」. 今日は昼に徒歩で外出したのですが,帰ってきてからグッタリしてしまい,何もできませんでした.後になって考えてみると,熱中症になりかけて…

博士論文の公聴会を見に大学まで

元所属研究室の留学生 C さんから「博士論文の公聴会があるからカモン」という連絡をもらっていたので,大学までおでかけしてきました.夏休みの真っ只中ということもあるのでしょうが,聴きにきている学生はほとんどいませんでした.「この人数を相手に公聴…

品詞付きの形態素 N-gram コーパス

概要 せっかく形態素解析したのに品詞を捨ててしまうなんて勿体ないということで,品詞付きの形態素 N-gram コーパスを作成してみました.入力は同じなのですが,トークンが短いという想定で実装していたため,一時ファイルが巨大になって難儀しました.ディ…

橋の下に猫

橋の下で「暑くてやってらんねー」という雰囲気の猫が寝ているのを見つけて,思わず写真をとってしまいました.

ssgnc の改修

何ヶ月か前に改修中と宣言してから放ったらかしになっていたのですが,再開することにしました.# 符号化方式の変更を検討したり,インタフェースを検討したり,ライブラリの依存関係について検討したり,いろいろとやっている間に忙しくなって,その内に N-…

お祭りなので,人がたくさんいます.

年に一度の大きなお祭りが昨日から始まっています.普段は人の少ない街に大量の人,人,人….折角だからと駅前まで行ってみたものの,人込みは苦手なので,本格的にお祭りが始まる前に退散してきました.この暑い中,人がたくさん集まっているせいか,余計に…

山下記念研究賞

2009 年度に研究会で発表した論文を山下記念研究賞に推薦しますよという連絡を 5 月にいただいてから 2 カ月半ほどが経過し,決定しましたよという連絡をいただきました.恐れ多いという気もしますが,やはり嬉しいものです.選ばれたのは第 95 回情報学基礎…

マージ用に優先順序付きキューを少しだけ効率化

データの規模が大きくなってマージのコストが見過ごせなくなってきたため,少しでも効率を良くするべく,優先順序付きキュー(std::priority_queue)に手をつけてみました.# 最後のマージは並列化できないので深刻な問題です.後,ヒープは実装が楽だから,…

N-gram コーパスの作成コスト

今の方法で N-gram コーパスを作成するのにかかるコストを調べてみました.といっても,N-gram コーパスのマージや頻度によるカットオフにかかるコストは含んでいません.参考程度です.実験環境は Core 2 Duo 1.6GHz で,コーパス作成用のプロセスには 2GiB…

今度は文字 N-gram コーパスを作成しました

追記(2010-09-22):完成版がこちら(N-gram コーパス - 日本語ウェブコーパス 2010)にあります.前回は形態素 N-gram コーパスを作成したので,今回は文字 N-gram コーパスを作成してみました.正確には,Unicode のコードポイント N-gram です. ダウン…

形態素 N-gram コーパスの修正版

追記(2010-09-22):完成版がこちら(N-gram コーパス - 日本語ウェブコーパス 2010)にあります. ダウンロード 前回(ウェブコーパスの一部から形態素 N-gram コーパスを作成しました - やた@はてな日記)の N-gram コーパスに文末記号(</S>)を加えて,Web…

ときに popen() は便利

ライブラリを探してインストールしたり,ドキュメントを読んだり,動作を確認したりする手間をかけたくないとき,コマンドで実現できることであれば,popen() を使うという手があります.例えば,標準入力から読み込んだデータを gzip で圧縮して "out.gz" …

先日の N-gram コーパスについて

文末記号について 文末を示す記号(</S>)を入れ忘れていました.申し訳ありません.近いうちに作成しなおす予定です.何か意見などがありましたら,それらも可能な範囲で反映させようと思います.例えば,デリミタ扱いしている文字(読点など)を残すとか,品詞…

風邪を引いてしまいました

風邪を引いてしまいました.理由は,寝るときに冷房を切るのを忘れていたからです.しょうもないですね.そして,体がだるくて仕方がないので一日寝ていたら,今度は眠れなくなってしまいました.