2010-11-01から1ヶ月間の記事一覧
ウェブコーパスにおけるタグの使用頻度をダウンロードできるようにしました. タグ使用頻度 - 日本語ウェブコーパス 2010 http://s-yata.jp/corpus/nwc2010/tags/ (抜粋)タグのカウントにおいては,タグ・属性の名前を小文字に統一し,class, id, name 以…
2010-11-26 にて「いつかは読んでおきたい(と言っておけばかっこいい)本」としてアルゴリズムデザインが紹介されているのを見て,発売時期と厚さゆえにエージェントアプローチ人工知能とセットで思い出しました.この 2 冊は枕より厚く,凶器と呼びたくな…
形態素の頻度をカウントするというシンプルなタスクで std::tr1::unordered_map の性能について実験してみました.std::string より const char * の方がメモリを節約できるというような軽い内容です. 実験概要 実験環境は以下のとおりです. 実験環境 CPU…
セクションターゲットを訓練データに使えないだろうか…(コンテンツ抽出) - やた@はてな日記 のアイデアを元にデータを作成してみたものの,バイアスがかなり強いような気がしたので,タグの使用頻度を調べてみることにしました.調査したのは,手元にある…
情報処理学会の会誌 11 月号の特集は,「音声認識技術の実用化への取り組み」というタイトルで,音声認識に関するハードウェアからシステム設計,アルゴリズム,アプリケーションにいたるまで,幅広い内容になっています.音声認識は何かしらの切っ掛けがあ…
Android 携帯である IS01 の OS アップデートが永久凍結されたことに対して総統がお怒りになっている動画(もちろん MAD)です.元は Xperia のために用意されたもののようですが,Xperia の OS が 2.1 にバージョンアップされたこともネタとして取り入れら…
面白いものをメールで教えてもらいました.商品自体も良いものではありますが,紹介記事がまた秀逸です. 誠 Biz.ID:世紀末“手帳”伝説:世紀末覇者に学ぶ成功哲学——アミバ天才手帳&世紀末覇者手帳 http://bizmakoto.jp/bizid/articles/1011/12/news080.html…
google_ad_section_start と google_ad_section_end で囲まれている部分を抽出するというのはよくある話だから,これを訓練データにしたという人がいてもおかしくないかなと思ったのですが,そういうことを試した人はいないのでしょうか.現在,データだけで…
n-yo さんに教えていただいてから随分と経ってしまいましたが,CETR を実装してウェブサービス化してみました. HTML テキスト抽出(CETR) http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の…
情報処理学会の会誌 10 月号の特集は,「Linux のセキュリティ機能」というタイトルで,SELinux と TOMOYO Linux によるアクセス制御がメインの内容でした.エンタープライズよりの内容っぽくて,あまり実感は沸きませんでしたけど,「こんなことやってたの…