2008-01-01から1年間の記事一覧

Code Jam に参加してみた

プログラムのコンテストには一度も参加していませんが,折角の機会なので Code Jam に参加してみました.Google - Code Jam http://code.google.com/codejam/結果,自分のダメっぷりを認識しました. コードを書くのが遅すぎです. 焦って失敗します. 数学…

Windows でのリダイレクトが遅すぎて困る

入出力に cin と cout を使ってリダイレクトしたところ,ifstream と ofstream を使ってファイル入出力するよりずっと遅くてショックを受けました.私の環境では体感で 10 倍くらいかかったように感じましたが,他の環境ではどうなのでしょうか.

形態素解析ことはじめ

今まで真面目に勉強したことがありませんでしたが,興味だけは持っていたので,少しずつ勉強を進めていこうと思います. 基礎的な内容 形態素解析 - Wikipedia http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90 形態素解析の基…

辞書のみで分かち書き

せっかく DAWG を実装したので,悲惨な結果になることを知りつつ,辞書のみを用いた分かち書きをしてみました.以下の場所においてありますので,興味のある方はどうぞ. http://nanika.osonae.com/Developing/4D61696E.html ひらがなは無理ということが存分に…

熱暴走しそう

今日は,計算機より先に人の方が熱暴走しそうなほどの暑さです.とはいえ,7 月に入るまで冷房使用禁止という過酷な試練も,あと少しで終わります.これまでの苦難の道,一言で表すとすれば,「使ってもええやん」に集約されることでしょう.

ACM の学生会員向けサービス

ふと思い出したのですが,ACM の学生会員(Student Member)になると,Books24x7 を使うことができます.役に立つ書籍があるかどうかは別の話ですが….ACM Online Books and Courses - Books24x7 Listing http://pd.acm.org/books/b24x7_books.cfm洋書は高い…

DAWG 構築テストの結果

いくつか用意したキーワードから DAWG を構築して,DAWG のサイズと構築時間を調べてみました.テストには Core Duo L2500 1.83GHz を使っています. キーワード キーワード数 元サイズ DAWG サイズ 構築時間 Wikipedia 790,170 16,724 KB 11,868 KB 25 秒 …

サンプルつけました

とりあえず,DAWG のライブラリを使うサンプルを作成してみました.ついでに,文字列整列用ライブラリにも修正を入れてあります.http://nanika.osonae.com/Developing/index.html 変更点 sort_strings にて const 修飾を付与 const のつけ忘れを修正しまし…

DAWG 完成(未テスト)

それっぽい結果が得られたので,サンプルすら付いていない状態ですが,現段階で公開してみました.近いうちにテスト結果も併せて公開できるように努力します(便利な言葉). 以下の nanika_alpha.tgz です. http://nanika.osonae.com/Developing/index.htm…

DAWG 開発中

データ構造とアルゴリズムは完成して,実装もほぼ完了しました.残るはマルチバイト文字を扱う場合に文字境界をどうするか,インタフェースをどうするかという状態です.UTF-8 なら文字境界を気にしないで使えるけど,「EUC や SJIS なんて知りません」では…

DAWG を実装中

「キーワードの自動リンクが目的なら,単純なダブル配列より DAWG の方が効率的」などと思いついて,ただいま DAWG を実装しています.以前に手抜きしつつ実装したコードが残っていたので,それを参考にごにょごにょして,数日中には完成する予定です.

最小完全ハッシュについて,書いた後で思ったこと

数日前に書いた最小完全ハッシュの内容について, 今日になって考え直してみたところ, いろいろと変なところがあることに気付きました. 構築時の作業領域 多段ハッシュにすれば分散し放題なので,気にするまでもなさそうです. Web アーカイブに関する想定…

流行に乗り遅れてみる

少し前に最小完全ハッシュに関する内容を Web で見かけて,内容が気になっていたのですが,丁度良い機会があったのでスライドとしてまとめてみました.http://nanika.osonae.com/misc/index.html参考にした資料には以下のようなものがあります. Bep: 大規模…

はてなキーワード 検出用正規表現の展開

はてなキーワードを検出するための正規表現を展開して,キーワードの一覧を取り出すコードを以下の場所におきました.http://nanika.osonae.com/Developing/index.html http://nanika.osonae.com/Developing/hatena_keyword_decoder.tgzかろうじて動く程度の…

C 言語から C++ へ

一昨年までは C 言語しか使えなかった私ですが,昨年には C++ の勉強をし始めて,今年に入ってからは C# の勉強をしています.C 言語から C++ への移行については,オブジェクト指向なんかよりもコンストラクタとデストラクタの便利さに加えて,テンプレート…

はてなダイアリーのキーワード一覧

はてなダイアリーでは,登録されているキーワードに対して,自動的にリンクが付与されます.また,同様の処理を外部のアプリケーションでもできるようにキーワード検出用の正規表現が公開されています.ただし,サイズが 2.6MB もある,とても大きな正規表現…