頻度の閾値と N-gram 異なり数の関係

ある程度のテキストを入力として,頻度の閾値を変更したときに N-gram 異なり数がどのように変化するのかを表にしてみました.上端が Xgms の列は,1-gram から X-gram までの N-gram 異なり数を示しています.左端が N の行は,頻度 N 以上の N-gram 異なり数を示しています.

表の右端が見えないかもしれませんが,あまり細かい数値を気にしても仕方がないので,次の表をご覧ください.それでも見たいという方はコピペでどうぞです.

閾値 1gms 2gms 3gms 4gms 5gms 6gms 7gms
1 264,806 4,543,431 18,061,399 39,874,275 64,656,088 89,045,647 111,814,193
2 158,703 2,003,823 5,756,043 9,816,157 13,315,304 16,216,696 18,644,022
3 123,628 1,303,098 3,198,621 4,864,432 6,094,570 7,002,025 7,721,519
4 106,230 814,925 2,267,100 3,295,892 4,027,196 4,552,280 4,955,024
5 94,355 814,925 1,746,384 2,459,707 2,954,907 3,300,359 3,568,719
6 86,276 696,187 1,432,688 1,975,505 2,347,610 2,602,572 2,799,252
7 79,954 608,829 1,211,914 1,640,626 1,930,612 2,126,719 2,277,991
8 75,131 544,443 1,058,811 1,419,751 1,664,163 1,831,385 1,960,461
9 71,001 492,486 935,336 1,238,709 1,440,292 1,574,986 1,679,283
10 67,483 451,304 841,785 1,105,572 1,279,619 1,396,646 1,486,090

以下の表は,頻度 1 以上の N-gram 異なり数を基準(100.00)として,頻度の閾値を変更すると N-gram 異なり数はどのくらい小さくなるかを示した表です.

閾値 1gms 2gms 3gms 4gms 5gms 6gms 7gms
1 100.00 100.00 100.00 100.00 100.00 100.00 100.00
2 59.93 44.10 31.87 24.62 20.59 18.21 16.67
3 46.69 28.68 17.71 12.20 9.43 7.86 6.91
4 40.12 22.00 12.55 8.27 6.23 5.11 4.43
5 35.63 17.94 9.67 6.17 4.57 3.71 3.19
6 32.58 15.32 7.93 4.95 3.63 2.92 2.50
7 30.19 13.40 6.71 4.11 2.99 2.39 2.04
8 28.37 11.98 5.86 3.56 2.57 2.06 1.75
9 26.81 10.84 5.18 3.11 2.23 1.77 1.50
10 25.48 9.93 4.66 2.77 1.98 1.57 1.33

動作テストのついでに作成しただけで,内容に大した意味はありません.概ね予想通りになっています.少し思うところがあるとすれば,頻度 10 を閾値にしてもアノ大きさになるのかというくらいです.