2010-09-01から1ヶ月間の記事一覧

Ubuntu 10.04 の Apache2 でローカル以外からのアクセスを禁止するには

(前略)テスト用の環境を用意するときのこと,上手く設定できなくて困りました.(中略)アクセス制御については,以下のウェブページを参考にしました.とても分かりやすいと思います. Apacheのアクセス制御をちゃんと理解する。 - こせきの技術日記 最初…

何度目か忘れた MeCab のインストール

今までに何度も MeCab をインストールしてきたけど,その度にダウンロード URL を調べたり,どんなオプションが必要だったのかを調べ直したりするのが面倒なので,次からは楽ができるようにメモを残すことにしました.とりあえず,g++ が必要なのでインスト…

XFS から ext3 への移行が完了

ウェブコーパスのスナップショットをすべて XFS から ext3 に移行し終わりました.データのコピーとスナップショットの作成ともに想定以上の時間がかかり,結局,丸 1 日以上かかってしまいました.ちなみに,200GB の EBS からスナップショットを作成するの…

MeCab と Yahoo! 日本語形態素解析の比較

ウェブコーパスを入力にすると形態素解析の誤りがそれなりに発生することを確認できていたので,少し興味があり,MeCab と Yahoo! 日本語形態素解析の解析結果を比較するウェブサービスを作成してみました. http://s-yata.jp/morph/compare MeCab について…

スナップショットから復元した EBS は慣らし運転がいるのかも

新しくスナップショットを作り直すべくアーカイブをコピーしていたんだけど,読み出し側で 10MB/s より遅いくらいの速度しか出なくて,なんでだろうと思っていたら,2/3 くらいコピーした時点で 20-30MB/s くらいの速度になりました.ちなみに,top の表示で…

ext3 にアーカイブを保存するとき

ウェブコーパスを保存するファイルシステムに XFS を使っていたのですが,互換性の問題があることが分かったため,ext3 に切り替えることにしました.しかし,試してみると,(デフォルトの設定では)XFS よりも使える領域が小さくなってしまうことに気づき…

じわじわくる感じ

随分と懐かしいネタ(ロマンシング サガ)にブラックユーモアが組み合わされて,じわじわと笑いが込み上げてくる内容でした. 明日から使える会議室陣形入門 異動したら上司が七英雄だった。 会社で使えるロマサガ技術入門 # ext3 への移行は順調に進んでい…

Ubuntu 10.4 で作成した XFS が Fedora や Debian でマウントできないっぽい

EBS のスナップショット化にて選んだファイルシステムが XFS だったのですが,Ubuntu 10.4 Server で作成した XFS な EBS は Fedora Core や Debian でマウントできないことが判明しました.一応,mkfs.xfs に -l version=1 や -i attr=0 を渡した場合も試し…

SSGNC 検索ツールのソースコードにコメントを追加

SSGNC の C++ ライブラリに関するドキュメントを用意しようと思ったけれど,手間ばかり大きくなりそうだったので,代わりに,検索ツールのソースコードにコメントを追加しました.検索ツールの動作とソースコードを見れば,基本的な使い方は分かる…かもしれ…

HTML アーカイブを Amazon EBS のスナップショット化

用途を情報解析研究に限定して,HTML アーカイブを保存した Amazon EBS のスナップショットを公開することにしました.文字コードの統一すらしていないデータなので,取り扱いには苦労すると思います.とりあえず見てみたいという方や,自前で HTML のパーサ…

文字 N-gram 検索サービス

形態素 N-gram コーパスのときと同様に,文字 N-gram コーパスの検索サービスを用意しました. http://s-yata.jp/ssgnc/char トークンの区切りが明確なので,空白による区切りは不要になっています. # Query: ****の技術, Token Order: Fixed i p t 等 の …

文字 N-gram コーパス完成版

なんとなく,おはようございます.形態素 N-gram コーパスに続きまして,文字 N-gram コーパスも完成しました.前回と同じく,以下のリンク先からファイルのリストをダウンロードできるようになっています. http://s-yata.jp/corpus/nwc2010/ngrams/ 急ぎで…

Hadoop とか MapReduce とかはいい,メモリを使うんだ

http://d.hatena.ne.jp/nokuno/20100915/1284564957 のスライドを眺めながら,「メモリを有効利用するのは MapReduce でも重要だよね」などとぼんやりと思いました.以前,N-gram コーパスの作成に MapReduce を試したとき,並列に実行されるプロセスの数と…

文字 N-gram コーパスも近い内にできる予定

文字 N-gram コーパスの方も明後日までには完成しそうです.でも,明日から 2, 3 日は家を空ける予定なので,公開できるのは休み明けになるかもしれません. # 今のところ,ココまでマージできています. # マージが終われば,残るは N による分配と圧縮のみ…

形態素 N-gram コーパス完成版

形態素 N-gram コーパスの完成版を公開しました.以下のリンク先からファイルのリストをダウンロードできるようになっています. http://s-yata.jp/corpus/nwc2010/ngrams/ また,一時的に公開していた検索サービスは以下の場所に移動しました. http://s-ya…

N-gram 検索システムのデータ差し替え

形態素 N-gram コーパスの完成まで後 4 日くらいかかると思っていたのに,1 日で終わってしまいました.なんという計算ミス….とりあえず,http://s-yata.jp/ssgnc/word の検索対象を差し替えてみました.元データの規模が 10 倍くらいになったので,検索結…

残り 5 日くらい(形態素 N-gram コーパス)

形態素 N-gram コーパスの完成までにかかる時間を大雑把に求めてみたところ,少なくとも後 5 日くらいかかることが分かりました.一時ファイル(gzipped)のサイズが 700GB を超えてげんなりしましたが,後は計算機におまかせするだけなので,その間に公開の…

敢えて言おう,Perl 怖い

以前から Perl は苦手なのですが,久しぶりに使ってみて,相変わらず苦手なことが良く分かりました.普段 C++ を使っているため,書式が大きく異なる Perl は使いにくいと感じているのだと思います.どちらかというと,Python の方が使いやすく感じます.ア…

ウェブコーパス概ね完成

ウェブページを収集する段階が終わり,ダウンロードに失敗した URL や内容の重複している URL が少し含まれているものの,ユニーク URL 数はわずかに 1 億件を上回りました.URL,HTTP レスポンスヘッダ,HTML 文書の合計サイズは,未圧縮の状態で 3.2TiB 弱…

Amazon EC2 で Ubuntu 10.4 を使うとき

しばらく使わないと忘れそうなので,Amazon EC2 で Ubuntu 10.4 を使うためのメモを残しておきます. AMI の選択 インスタンスを起動するために,Ubuntu 10.4 の AMI(Amazon Machine Image)を選択します.AWS Management Console(AWS の提供するウェブサ…

N-gram 検索システムの更新(ssgnc-0.4.5)

大幅な改修に加えてデバッグを何度もおこなった結果,バージョンが 0.2.2 から 0.4.5 になりました.ドキュメントも同時に更新しています. Search System for Giga-scale N-gram Corpus Google Code Archive - Long-term storage for Google Code Project H…