2010-09-07から1日間の記事一覧

敢えて言おう,Perl 怖い

以前から Perl は苦手なのですが,久しぶりに使ってみて,相変わらず苦手なことが良く分かりました.普段 C++ を使っているため,書式が大きく異なる Perl は使いにくいと感じているのだと思います.どちらかというと,Python の方が使いやすく感じます.ア…

ウェブコーパス概ね完成

ウェブページを収集する段階が終わり,ダウンロードに失敗した URL や内容の重複している URL が少し含まれているものの,ユニーク URL 数はわずかに 1 億件を上回りました.URL,HTTP レスポンスヘッダ,HTML 文書の合計サイズは,未圧縮の状態で 3.2TiB 弱…