2009-03-24から1日間の記事一覧

ウェブコーパスからの HTML 抽出と標準フォーマットへの変換

すべてを一度に処理するのはどうせ無理と判断して,少しだけファイルを入れてみたところ,無事に変換できることが分かりました.ただし,形態素解析や係り受け解析をしていない状態の速度がコレだとすると,100 万文書を超えるような大量のウェブコーパスを…

Google n-gram 検索システム

使えるレベルになったような気がします.インデックス自体には特定の 1-gram を含む n-gram を頻度降順に返す機能しかありませんが,それでも役に立つと思います. できることの例 「りんご」と「みかん」が出現する n-gram の列挙 「りんご」と「みかん」が…