2010-01-01から1年間の記事一覧

文字 N-gram 検索サービス

形態素 N-gram コーパスのときと同様に,文字 N-gram コーパスの検索サービスを用意しました. http://s-yata.jp/ssgnc/char トークンの区切りが明確なので,空白による区切りは不要になっています. # Query: ****の技術, Token Order: Fixed i p t 等 の …

文字 N-gram コーパス完成版

なんとなく,おはようございます.形態素 N-gram コーパスに続きまして,文字 N-gram コーパスも完成しました.前回と同じく,以下のリンク先からファイルのリストをダウンロードできるようになっています. http://s-yata.jp/corpus/nwc2010/ngrams/ 急ぎで…

Hadoop とか MapReduce とかはいい,メモリを使うんだ

http://d.hatena.ne.jp/nokuno/20100915/1284564957 のスライドを眺めながら,「メモリを有効利用するのは MapReduce でも重要だよね」などとぼんやりと思いました.以前,N-gram コーパスの作成に MapReduce を試したとき,並列に実行されるプロセスの数と…

文字 N-gram コーパスも近い内にできる予定

文字 N-gram コーパスの方も明後日までには完成しそうです.でも,明日から 2, 3 日は家を空ける予定なので,公開できるのは休み明けになるかもしれません. # 今のところ,ココまでマージできています. # マージが終われば,残るは N による分配と圧縮のみ…

形態素 N-gram コーパス完成版

形態素 N-gram コーパスの完成版を公開しました.以下のリンク先からファイルのリストをダウンロードできるようになっています. http://s-yata.jp/corpus/nwc2010/ngrams/ また,一時的に公開していた検索サービスは以下の場所に移動しました. http://s-ya…

N-gram 検索システムのデータ差し替え

形態素 N-gram コーパスの完成まで後 4 日くらいかかると思っていたのに,1 日で終わってしまいました.なんという計算ミス….とりあえず,http://s-yata.jp/ssgnc/word の検索対象を差し替えてみました.元データの規模が 10 倍くらいになったので,検索結…

残り 5 日くらい(形態素 N-gram コーパス)

形態素 N-gram コーパスの完成までにかかる時間を大雑把に求めてみたところ,少なくとも後 5 日くらいかかることが分かりました.一時ファイル(gzipped)のサイズが 700GB を超えてげんなりしましたが,後は計算機におまかせするだけなので,その間に公開の…

敢えて言おう,Perl 怖い

以前から Perl は苦手なのですが,久しぶりに使ってみて,相変わらず苦手なことが良く分かりました.普段 C++ を使っているため,書式が大きく異なる Perl は使いにくいと感じているのだと思います.どちらかというと,Python の方が使いやすく感じます.ア…

ウェブコーパス概ね完成

ウェブページを収集する段階が終わり,ダウンロードに失敗した URL や内容の重複している URL が少し含まれているものの,ユニーク URL 数はわずかに 1 億件を上回りました.URL,HTTP レスポンスヘッダ,HTML 文書の合計サイズは,未圧縮の状態で 3.2TiB 弱…

Amazon EC2 で Ubuntu 10.4 を使うとき

しばらく使わないと忘れそうなので,Amazon EC2 で Ubuntu 10.4 を使うためのメモを残しておきます. AMI の選択 インスタンスを起動するために,Ubuntu 10.4 の AMI(Amazon Machine Image)を選択します.AWS Management Console(AWS の提供するウェブサ…

N-gram 検索システムの更新(ssgnc-0.4.5)

大幅な改修に加えてデバッグを何度もおこなった結果,バージョンが 0.2.2 から 0.4.5 になりました.ドキュメントも同時に更新しています. Search System for Giga-scale N-gram Corpus Google Code Archive - Long-term storage for Google Code Project H…

N-gram 検索システムにおける頻度の丸めについて

新しい SSGNC では,頻度情報は上位 3 桁のみを残して,4 桁目以降の細かい数値は切り捨てるようにしています.理由は,あまり細かい値を持たせても使い道がないことと,元になっているコーパスの質が良くないことです.ウェブ上のテキスト自体に偏りがあっ…

N-gram 検索システム(一時的)

概要 SSGNC の改修が一段落して動く状態になったので,形態素 N-gram コーパス(形態素 N-gram コーパスの修正版 - やた@はてな日記)を対象とする検索システムを一時的に公開しています. N-gram 検索システム http://s-yata.jp/ssgnc/word: http://s-yata…

gcc で返り値の確認忘れに警告を出す(warn_unused_result)

以前,liblzma のヘッダを眺めているときに気づいたのですが,gcc 3.4 以降では,warn_unused_result という属性を関数に与えておくと,返り値を確認していない場合に警告を出してくれるようです.わざわざエラーコードを返すような設計にしても,手抜きで確…

図書館ウェブサイトに対するアクセスの件

概要 簡単にまとめてしまうと,逮捕された男性のプログラムには違法性がなく,むしろウェブサイト側のプログラムに不具合があり,その不具合のせいでウェブサイトがダウンしていたのではないかという話でした.…が,いろいろと記事が追加されて,「不具合が…

お昼に徒歩で出かけるのは止めようと反省

「暑いー」「だるいー」と無駄に愚痴を言わずにはいられないほどの猛暑が続いています.「暑いー」「だるいー」. 今日は昼に徒歩で外出したのですが,帰ってきてからグッタリしてしまい,何もできませんでした.後になって考えてみると,熱中症になりかけて…

博士論文の公聴会を見に大学まで

元所属研究室の留学生 C さんから「博士論文の公聴会があるからカモン」という連絡をもらっていたので,大学までおでかけしてきました.夏休みの真っ只中ということもあるのでしょうが,聴きにきている学生はほとんどいませんでした.「この人数を相手に公聴…

品詞付きの形態素 N-gram コーパス

概要 せっかく形態素解析したのに品詞を捨ててしまうなんて勿体ないということで,品詞付きの形態素 N-gram コーパスを作成してみました.入力は同じなのですが,トークンが短いという想定で実装していたため,一時ファイルが巨大になって難儀しました.ディ…

橋の下に猫

橋の下で「暑くてやってらんねー」という雰囲気の猫が寝ているのを見つけて,思わず写真をとってしまいました.

ssgnc の改修

何ヶ月か前に改修中と宣言してから放ったらかしになっていたのですが,再開することにしました.# 符号化方式の変更を検討したり,インタフェースを検討したり,ライブラリの依存関係について検討したり,いろいろとやっている間に忙しくなって,その内に N-…

お祭りなので,人がたくさんいます.

年に一度の大きなお祭りが昨日から始まっています.普段は人の少ない街に大量の人,人,人….折角だからと駅前まで行ってみたものの,人込みは苦手なので,本格的にお祭りが始まる前に退散してきました.この暑い中,人がたくさん集まっているせいか,余計に…

山下記念研究賞

2009 年度に研究会で発表した論文を山下記念研究賞に推薦しますよという連絡を 5 月にいただいてから 2 カ月半ほどが経過し,決定しましたよという連絡をいただきました.恐れ多いという気もしますが,やはり嬉しいものです.選ばれたのは第 95 回情報学基礎…

マージ用に優先順序付きキューを少しだけ効率化

データの規模が大きくなってマージのコストが見過ごせなくなってきたため,少しでも効率を良くするべく,優先順序付きキュー(std::priority_queue)に手をつけてみました.# 最後のマージは並列化できないので深刻な問題です.後,ヒープは実装が楽だから,…

N-gram コーパスの作成コスト

今の方法で N-gram コーパスを作成するのにかかるコストを調べてみました.といっても,N-gram コーパスのマージや頻度によるカットオフにかかるコストは含んでいません.参考程度です.実験環境は Core 2 Duo 1.6GHz で,コーパス作成用のプロセスには 2GiB…

今度は文字 N-gram コーパスを作成しました

追記(2010-09-22):完成版がこちら(N-gram コーパス - 日本語ウェブコーパス 2010)にあります.前回は形態素 N-gram コーパスを作成したので,今回は文字 N-gram コーパスを作成してみました.正確には,Unicode のコードポイント N-gram です. ダウン…

形態素 N-gram コーパスの修正版

追記(2010-09-22):完成版がこちら(N-gram コーパス - 日本語ウェブコーパス 2010)にあります. ダウンロード 前回(ウェブコーパスの一部から形態素 N-gram コーパスを作成しました - やた@はてな日記)の N-gram コーパスに文末記号(</S>)を加えて,Web…

ときに popen() は便利

ライブラリを探してインストールしたり,ドキュメントを読んだり,動作を確認したりする手間をかけたくないとき,コマンドで実現できることであれば,popen() を使うという手があります.例えば,標準入力から読み込んだデータを gzip で圧縮して "out.gz" …

先日の N-gram コーパスについて

文末記号について 文末を示す記号(</S>)を入れ忘れていました.申し訳ありません.近いうちに作成しなおす予定です.何か意見などがありましたら,それらも可能な範囲で反映させようと思います.例えば,デリミタ扱いしている文字(読点など)を残すとか,品詞…

風邪を引いてしまいました

風邪を引いてしまいました.理由は,寝るときに冷房を切るのを忘れていたからです.しょうもないですね.そして,体がだるくて仕方がないので一日寝ていたら,今度は眠れなくなってしまいました.

ウェブコーパスの一部から形態素 N-gram コーパスを作成しました

追記(2010-09-22):完成版がこちら(N-gram コーパス - 日本語ウェブコーパス 2010)にあります.追記(2010-08-06):文末記号(</S>)を追加したものを作成しました(形態素 N-gram コーパスの修正版 - やた@はてな日記). ダウンロード 頻度が 100 以上の…