2010-01-01から1年間の記事一覧

多層トライの実験結果

概要 ux-trie に影響されて,複数のトライを使った辞書の実験をしてみました.具体的には,「トライの数」,「TAIL の有無」,「ノード順序(ラベル順・頻度順)」を切り替えて,辞書のサイズや構築・検索にかかる時間を比較しました.実験に使ったソースコ…

トライの実験に使えるちょっとしたツール

トライを構築したときのノード数が分からない,TAIL を導入したときにサイズがどのくらい小さくなるのか分からない,そんな悩みに答えるちょっとしたツールのソースコードです.各ノードのサイズとノード数が分かればトライのサイズは簡単に求まるので,トラ…

セクションターゲットの用例アーカイブを公開

セクションターゲットを含む HTML 文書のアーカイブを公開しました. セクションターゲット - 日本語ウェブコーパス 2010 http://s-yata.jp/corpus/nwc2010/adsense/ そのまま公開というわけにはいかないので,コメント・スクリプト・スタイルを取り除いたり…

タグの使用頻度を公開

ウェブコーパスにおけるタグの使用頻度をダウンロードできるようにしました. タグ使用頻度 - 日本語ウェブコーパス 2010 http://s-yata.jp/corpus/nwc2010/tags/ (抜粋)タグのカウントにおいては,タグ・属性の名前を小文字に統一し,class, id, name 以…

読み終わったら達成感のありそうな本(かなりやわらかい表現)

2010-11-26 にて「いつかは読んでおきたい(と言っておけばかっこいい)本」としてアルゴリズムデザインが紹介されているのを見て,発売時期と厚さゆえにエージェントアプローチ人工知能とセットで思い出しました.この 2 冊は枕より厚く,凶器と呼びたくな…

頻度計数における unordered_map の調整(C++)

形態素の頻度をカウントするというシンプルなタスクで std::tr1::unordered_map の性能について実験してみました.std::string より const char * の方がメモリを節約できるというような軽い内容です. 実験概要 実験環境は以下のとおりです. 実験環境 CPU…

タグの使用頻度を調査

セクションターゲットを訓練データに使えないだろうか…(コンテンツ抽出) - やた@はてな日記 のアイデアを元にデータを作成してみたものの,バイアスがかなり強いような気がしたので,タグの使用頻度を調べてみることにしました.調査したのは,手元にある…

音声認識技術(情報処理の特集)

情報処理学会の会誌 11 月号の特集は,「音声認識技術の実用化への取り組み」というタイトルで,音声認識に関するハードウェアからシステム設計,アルゴリズム,アプリケーションにいたるまで,幅広い内容になっています.音声認識は何かしらの切っ掛けがあ…

IS01 ユーザの怒りと悲しみを いま 言葉でなく心で理解した

Android 携帯である IS01 の OS アップデートが永久凍結されたことに対して総統がお怒りになっている動画(もちろん MAD)です.元は Xperia のために用意されたもののようですが,Xperia の OS が 2.1 にバージョンアップされたこともネタとして取り入れら…

世紀末覇者の皆様へ

面白いものをメールで教えてもらいました.商品自体も良いものではありますが,紹介記事がまた秀逸です. 誠 Biz.ID:世紀末“手帳”伝説:世紀末覇者に学ぶ成功哲学——アミバ天才手帳&世紀末覇者手帳 http://bizmakoto.jp/bizid/articles/1011/12/news080.html…

セクションターゲットを訓練データに使えないだろうか…(コンテンツ抽出)

google_ad_section_start と google_ad_section_end で囲まれている部分を抽出するというのはよくある話だから,これを訓練データにしたという人がいてもおかしくないかなと思ったのですが,そういうことを試した人はいないのでしょうか.現在,データだけで…

CETR による HTML 文書からのテキスト抽出

n-yo さんに教えていただいてから随分と経ってしまいましたが,CETR を実装してウェブサービス化してみました. HTML テキスト抽出(CETR) http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の…

Linux のアクセス制御

情報処理学会の会誌 10 月号の特集は,「Linux のセキュリティ機能」というタイトルで,SELinux と TOMOYO Linux によるアクセス制御がメインの内容でした.エンタープライズよりの内容っぽくて,あまり実感は沸きませんでしたけど,「こんなことやってたの…

Darts-clone 0.32g rc1

Darts-clone を更新しました.ただし,更新の内容は,DARTS_VERSION というマクロの追加とコメントの追加だけです.動作の変更は特にありません. プロジェクト URL http://code.google.com/p/darts-clone/ 最新の darts.h http://darts-clone.googlecode.co…

テキスト抽出と N-gram コーパス作成のツールを公開(nwc-toolkit 0.0.1)

日本語ウェブコーパスを作成するために開発したツールを改修したものを公開しました.テキストの抽出と N-gram コーパスの作成くらいしかできませんが,何かに使えるかもしれません.テキストの抽出については,http://s-yata.jp/apps/nwc-toolkit/text-extr…

zlib, libbzip2, XZ Utils の比較

概要 zlib, libbzip2, XZ Utils に関するドキュメントを作成したので,各ライブラリによる圧縮・復元について,圧縮率,圧縮時間,復元時間を比較してみました.圧縮率は((圧縮後のサイズ)÷(圧縮前のサイズ))になっています. 各ライブラリに関するド…

頻度の閾値と N-gram 異なり数の関係

ある程度のテキストを入力として,頻度の閾値を変更したときに N-gram 異なり数がどのように変化するのかを表にしてみました.上端が Xgms の列は,1-gram から X-gram までの N-gram 異なり数を示しています.左端が N の行は,頻度 N 以上の N-gram 異なり…

xz-utils の使い方

zlib と libbzip2 に続いて,xz-utils (liblzma) についてもドキュメントを作成してみました.zlib や libbzip2 と違ってファイル I/O 用のインタフェースがないので,xz-utils の導入は少し難しいかもしれません.後,圧縮レベルを最大にしたときの圧縮時間…

zlib と libbzip2 の使い方

zlib と libbzip2 の使い方をちょろっとドキュメントにしてみました.他にも日本語のドキュメントがある zlib については微妙ですけど,libbzip2 については,日本語のドキュメントが見当たらないので多少は意味があるかもしれません.でも,libbzip2 を使う…

HTML からのテキスト抽出をウェブサービス化

日本語ウェブコーパスを処理するためのプログラムを改修しているのですが,HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので,HTML 文書からテキストを抽出するウェブサービスを公開してみました. http://s-yata.jp/apps/nwc-toolkit/…

Ubuntu 10.04 の Apache2 でローカル以外からのアクセスを禁止するには

(前略)テスト用の環境を用意するときのこと,上手く設定できなくて困りました.(中略)アクセス制御については,以下のウェブページを参考にしました.とても分かりやすいと思います. Apacheのアクセス制御をちゃんと理解する。 - こせきの技術日記 最初…

何度目か忘れた MeCab のインストール

今までに何度も MeCab をインストールしてきたけど,その度にダウンロード URL を調べたり,どんなオプションが必要だったのかを調べ直したりするのが面倒なので,次からは楽ができるようにメモを残すことにしました.とりあえず,g++ が必要なのでインスト…

XFS から ext3 への移行が完了

ウェブコーパスのスナップショットをすべて XFS から ext3 に移行し終わりました.データのコピーとスナップショットの作成ともに想定以上の時間がかかり,結局,丸 1 日以上かかってしまいました.ちなみに,200GB の EBS からスナップショットを作成するの…

MeCab と Yahoo! 日本語形態素解析の比較

ウェブコーパスを入力にすると形態素解析の誤りがそれなりに発生することを確認できていたので,少し興味があり,MeCab と Yahoo! 日本語形態素解析の解析結果を比較するウェブサービスを作成してみました. http://s-yata.jp/morph/compare MeCab について…

スナップショットから復元した EBS は慣らし運転がいるのかも

新しくスナップショットを作り直すべくアーカイブをコピーしていたんだけど,読み出し側で 10MB/s より遅いくらいの速度しか出なくて,なんでだろうと思っていたら,2/3 くらいコピーした時点で 20-30MB/s くらいの速度になりました.ちなみに,top の表示で…

ext3 にアーカイブを保存するとき

ウェブコーパスを保存するファイルシステムに XFS を使っていたのですが,互換性の問題があることが分かったため,ext3 に切り替えることにしました.しかし,試してみると,(デフォルトの設定では)XFS よりも使える領域が小さくなってしまうことに気づき…

じわじわくる感じ

随分と懐かしいネタ(ロマンシング サガ)にブラックユーモアが組み合わされて,じわじわと笑いが込み上げてくる内容でした. 明日から使える会議室陣形入門 異動したら上司が七英雄だった。 会社で使えるロマサガ技術入門 # ext3 への移行は順調に進んでい…

Ubuntu 10.4 で作成した XFS が Fedora や Debian でマウントできないっぽい

EBS のスナップショット化にて選んだファイルシステムが XFS だったのですが,Ubuntu 10.4 Server で作成した XFS な EBS は Fedora Core や Debian でマウントできないことが判明しました.一応,mkfs.xfs に -l version=1 や -i attr=0 を渡した場合も試し…

SSGNC 検索ツールのソースコードにコメントを追加

SSGNC の C++ ライブラリに関するドキュメントを用意しようと思ったけれど,手間ばかり大きくなりそうだったので,代わりに,検索ツールのソースコードにコメントを追加しました.検索ツールの動作とソースコードを見れば,基本的な使い方は分かる…かもしれ…

HTML アーカイブを Amazon EBS のスナップショット化

用途を情報解析研究に限定して,HTML アーカイブを保存した Amazon EBS のスナップショットを公開することにしました.文字コードの統一すらしていないデータなので,取り扱いには苦労すると思います.とりあえず見てみたいという方や,自前で HTML のパーサ…