2010-06-01から1ヶ月間の記事一覧

作成中のウェブコーパスの内容について

続けてコメントをいただいたので,ウェブコーパスの中身について分かっていることを書いておきます. アダルト系のページについて Yahoo! ウェブ検索 Web API を使うとき,デフォルトの設定(adult_ok は値なし)にしているので,アダルト系のページはかなり…

リソースを気軽に投入できるのは便利

昨日の話(Amazon EC2 を使ってウェブコーパスを作成中 - やた@はてな日記)に関して有用なコメントをいただいたので,とりあえず bzip2 から xz への移行をしています.# bzip2 から xz への移行により,コーパスのサイズは 10-15% くらい小さくなると思い…

「パソコンがおかしいからなんとかして欲しい」という言葉

「パソコンがおかしいからなんとかして欲しい」という言葉は厄介です.今回は,HDD の故障によりシステムファイルが破損して OS を起動できない様子だったので,1. 手持ちの HDD と交換して,2. システムを復元した後,3. 旧 HDD から可能な範囲でデータを復…

Amazon EC2 を使ってウェブコーパスを作成中

概要 最近,Amazon EC2 を利用してウェブコーパスを作成しています.収集対象は Yahoo! ウェブ検索 Web API により得られる検索結果(上位 1000 件)に含まれるウェブページで,検索のクエリには ipadic 2.7.0 の見出し語(217,550 語)を用いています.取得…

続・BeautifulSoup で HTML 文書からタグを取り除く(Python)

前回(BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記)の内容でも,ある程度は問題なく処理できていました.しかし,大量の HTML 文書を渡してみると,新たに 2 つの問題が見つかりました.それぞれの内容と今回の対処は以下…

BeautifulSoup で HTML 文書からタグを取り除く(Python)

はじめに HTML の解析に便利な BeautifulSoup(Python ライブラリ)を使って HTML 文書のテキスト部分の切り出しを試みましたというお話です.「間違えているところがある」とか「もっと良い方法がある」という場合,コメントをいただけると幸いです.※ HTML…

案の定,落ちました

面接にてダメダメだったので落ちるだろうと思っていましたが,案の定,落ちました.覚悟していても,多少は凹むようです.

近況

二週間ほど前に親が入院しました.慢性的な病気で長いこと調子が悪かった上に,肺炎が追加されて病院送りという流れです.入院前後はかなり危険な状態でしたが,幸いにも,快方に向かっているようです.というようなことがあって,少しばかり肝を冷やしまし…