2009-10-21から1日間の記事一覧

例文検索システム(お試し版)のメモ

大量のテキストファイルから特定のフレーズを含む文を検索するシステムです.Python の勉強が目的だったのか,システムの開発が目的だったのか,今となっては思い出せません.:Dブラウザからクエリの登録をしておいて,検索が完了したら結果をダウンロードで…

HTML 解析用ライブラリ

大量の HTML 文書を解析するために作成したライブラリとツールです.HTML 文書を解析して protocol buffers に変換したり,テキスト部分を抽出したり,リンクを抽出したりできます.入出力の文字コードは UTF-8 を想定しています.HTML 文書の解析といっても…