2010-11-01から1ヶ月間の記事一覧

タグの使用頻度を公開

ウェブコーパスにおけるタグの使用頻度をダウンロードできるようにしました. タグ使用頻度 - 日本語ウェブコーパス 2010 http://s-yata.jp/corpus/nwc2010/tags/ (抜粋)タグのカウントにおいては,タグ・属性の名前を小文字に統一し,class, id, name 以…

読み終わったら達成感のありそうな本(かなりやわらかい表現)

2010-11-26 にて「いつかは読んでおきたい(と言っておけばかっこいい)本」としてアルゴリズムデザインが紹介されているのを見て,発売時期と厚さゆえにエージェントアプローチ人工知能とセットで思い出しました.この 2 冊は枕より厚く,凶器と呼びたくな…

頻度計数における unordered_map の調整(C++)

形態素の頻度をカウントするというシンプルなタスクで std::tr1::unordered_map の性能について実験してみました.std::string より const char * の方がメモリを節約できるというような軽い内容です. 実験概要 実験環境は以下のとおりです. 実験環境 CPU…

タグの使用頻度を調査

セクションターゲットを訓練データに使えないだろうか…(コンテンツ抽出) - やた@はてな日記 のアイデアを元にデータを作成してみたものの,バイアスがかなり強いような気がしたので,タグの使用頻度を調べてみることにしました.調査したのは,手元にある…

音声認識技術(情報処理の特集)

情報処理学会の会誌 11 月号の特集は,「音声認識技術の実用化への取り組み」というタイトルで,音声認識に関するハードウェアからシステム設計,アルゴリズム,アプリケーションにいたるまで,幅広い内容になっています.音声認識は何かしらの切っ掛けがあ…

IS01 ユーザの怒りと悲しみを いま 言葉でなく心で理解した

Android 携帯である IS01 の OS アップデートが永久凍結されたことに対して総統がお怒りになっている動画(もちろん MAD)です.元は Xperia のために用意されたもののようですが,Xperia の OS が 2.1 にバージョンアップされたこともネタとして取り入れら…

世紀末覇者の皆様へ

面白いものをメールで教えてもらいました.商品自体も良いものではありますが,紹介記事がまた秀逸です. 誠 Biz.ID:世紀末“手帳”伝説:世紀末覇者に学ぶ成功哲学——アミバ天才手帳&世紀末覇者手帳 http://bizmakoto.jp/bizid/articles/1011/12/news080.html…

セクションターゲットを訓練データに使えないだろうか…(コンテンツ抽出)

google_ad_section_start と google_ad_section_end で囲まれている部分を抽出するというのはよくある話だから,これを訓練データにしたという人がいてもおかしくないかなと思ったのですが,そういうことを試した人はいないのでしょうか.現在,データだけで…

CETR による HTML 文書からのテキスト抽出

n-yo さんに教えていただいてから随分と経ってしまいましたが,CETR を実装してウェブサービス化してみました. HTML テキスト抽出(CETR) http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の…

Linux のアクセス制御

情報処理学会の会誌 10 月号の特集は,「Linux のセキュリティ機能」というタイトルで,SELinux と TOMOYO Linux によるアクセス制御がメインの内容でした.エンタープライズよりの内容っぽくて,あまり実感は沸きませんでしたけど,「こんなことやってたの…