2010-12-01から1ヶ月間の記事一覧

多層トライの実験結果

概要 ux-trie に影響されて,複数のトライを使った辞書の実験をしてみました.具体的には,「トライの数」,「TAIL の有無」,「ノード順序(ラベル順・頻度順)」を切り替えて,辞書のサイズや構築・検索にかかる時間を比較しました.実験に使ったソースコ…

トライの実験に使えるちょっとしたツール

トライを構築したときのノード数が分からない,TAIL を導入したときにサイズがどのくらい小さくなるのか分からない,そんな悩みに答えるちょっとしたツールのソースコードです.各ノードのサイズとノード数が分かればトライのサイズは簡単に求まるので,トラ…

セクションターゲットの用例アーカイブを公開

セクションターゲットを含む HTML 文書のアーカイブを公開しました. セクションターゲット - 日本語ウェブコーパス 2010 http://s-yata.jp/corpus/nwc2010/adsense/ そのまま公開というわけにはいかないので,コメント・スクリプト・スタイルを取り除いたり…