タグの使用頻度を公開

ウェブコーパスにおけるタグの使用頻度をダウンロードできるようにしました．タグ使用頻度 - 日本語ウェブコーパス 2010 http://s-yata.jp/corpus/nwc2010/tags/ （抜粋）タグのカウントにおいては，タグ・属性の名前を小文字に統一し，class, id, name 以…

2010-11-29

読み終わったら達成感のありそうな本（かなりやわらかい表現）

2010-11-26 にて「いつかは読んでおきたい（と言っておけばかっこいい）本」としてアルゴリズムデザインが紹介されているのを見て，発売時期と厚さゆえにエージェントアプローチ人工知能とセットで思い出しました．この 2 冊は枕より厚く，凶器と呼びたくな…

2010-11-28

頻度計数における unordered_map の調整（C++）

形態素の頻度をカウントするというシンプルなタスクで std::tr1::unordered_map の性能について実験してみました．std::string より const char * の方がメモリを節約できるというような軽い内容です．実験概要実験環境は以下のとおりです．実験環境 CPU…

2010-11-27

タグの使用頻度を調査

セクションターゲットを訓練データに使えないだろうか…（コンテンツ抽出） - やた＠はてな日記のアイデアを元にデータを作成してみたものの，バイアスがかなり強いような気がしたので，タグの使用頻度を調べてみることにしました．調査したのは，手元にある…

2010-11-25

音声認識技術（情報処理の特集）

情報処理学会の会誌 11 月号の特集は，「音声認識技術の実用化への取り組み」というタイトルで，音声認識に関するハードウェアからシステム設計，アルゴリズム，アプリケーションにいたるまで，幅広い内容になっています．音声認識は何かしらの切っ掛けがあ…

2010-11-24

IS01 ユーザの怒りと悲しみをいま言葉でなく心で理解した

Android 携帯である IS01 の OS アップデートが永久凍結されたことに対して総統がお怒りになっている動画（もちろん MAD）です．元は Xperia のために用意されたもののようですが，Xperia の OS が 2.1 にバージョンアップされたこともネタとして取り入れら…

2010-11-12

世紀末覇者の皆様へ

面白いものをメールで教えてもらいました．商品自体も良いものではありますが，紹介記事がまた秀逸です．誠 Biz.ID：世紀末“手帳”伝説：世紀末覇者に学ぶ成功哲学——アミバ天才手帳＆世紀末覇者手帳 http://bizmakoto.jp/bizid/articles/1011/12/news080.html…

2010-11-11

セクションターゲットを訓練データに使えないだろうか…（コンテンツ抽出）

google_ad_section_start と google_ad_section_end で囲まれている部分を抽出するというのはよくある話だから，これを訓練データにしたという人がいてもおかしくないかなと思ったのですが，そういうことを試した人はいないのでしょうか．現在，データだけで…

2010-11-10

CETR による HTML 文書からのテキスト抽出

n-yo さんに教えていただいてから随分と経ってしまいましたが，CETR を実装してウェブサービス化してみました． HTML テキスト抽出（CETR） http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の…

2010-11-01

Linux のアクセス制御

情報処理学会の会誌 10 月号の特集は，「Linux のセキュリティ機能」というタイトルで，SELinux と TOMOYO Linux によるアクセス制御がメインの内容でした．エンタープライズよりの内容っぽくて，あまり実感は沸きませんでしたけど，「こんなことやってたの…

2010-11-01から1ヶ月間の記事一覧