ウェブコーパスからの HTML 抽出と標準フォーマットへの変換

すべてを一度に処理するのはどうせ無理と判断して,少しだけファイルを入れてみたところ,無事に変換できることが分かりました.ただし,形態素解析係り受け解析をしていない状態の速度がコレだとすると,100 万文書を超えるような大量のウェブコーパスを変換するのは厳しいかもしれません.

# Perl のライブラリ不足でエラーが出たものの,片端からインストールすることで解決しました.