2010-08-31から1日間の記事一覧

N-gram 検索システムにおける頻度の丸めについて

新しい SSGNC では,頻度情報は上位 3 桁のみを残して,4 桁目以降の細かい数値は切り捨てるようにしています.理由は,あまり細かい値を持たせても使い道がないことと,元になっているコーパスの質が良くないことです.ウェブ上のテキスト自体に偏りがあっ…