頻度の閾値と N-gram 異なり数の関係
ある程度のテキストを入力として,頻度の閾値を変更したときに N-gram 異なり数がどのように変化するのかを表にしてみました.上端が Xgms の列は,1-gram から X-gram までの N-gram 異なり数を示しています.左端が N の行は,頻度 N 以上の N-gram 異なり数を示しています.
表の右端が見えないかもしれませんが,あまり細かい数値を気にしても仕方がないので,次の表をご覧ください.それでも見たいという方はコピペでどうぞです.
閾値 | 1gms | 2gms | 3gms | 4gms | 5gms | 6gms | 7gms |
---|---|---|---|---|---|---|---|
1 | 264,806 | 4,543,431 | 18,061,399 | 39,874,275 | 64,656,088 | 89,045,647 | 111,814,193 |
2 | 158,703 | 2,003,823 | 5,756,043 | 9,816,157 | 13,315,304 | 16,216,696 | 18,644,022 |
3 | 123,628 | 1,303,098 | 3,198,621 | 4,864,432 | 6,094,570 | 7,002,025 | 7,721,519 |
4 | 106,230 | 814,925 | 2,267,100 | 3,295,892 | 4,027,196 | 4,552,280 | 4,955,024 |
5 | 94,355 | 814,925 | 1,746,384 | 2,459,707 | 2,954,907 | 3,300,359 | 3,568,719 |
6 | 86,276 | 696,187 | 1,432,688 | 1,975,505 | 2,347,610 | 2,602,572 | 2,799,252 |
7 | 79,954 | 608,829 | 1,211,914 | 1,640,626 | 1,930,612 | 2,126,719 | 2,277,991 |
8 | 75,131 | 544,443 | 1,058,811 | 1,419,751 | 1,664,163 | 1,831,385 | 1,960,461 |
9 | 71,001 | 492,486 | 935,336 | 1,238,709 | 1,440,292 | 1,574,986 | 1,679,283 |
10 | 67,483 | 451,304 | 841,785 | 1,105,572 | 1,279,619 | 1,396,646 | 1,486,090 |
以下の表は,頻度 1 以上の N-gram 異なり数を基準(100.00)として,頻度の閾値を変更すると N-gram 異なり数はどのくらい小さくなるかを示した表です.
閾値 | 1gms | 2gms | 3gms | 4gms | 5gms | 6gms | 7gms |
---|---|---|---|---|---|---|---|
1 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 |
2 | 59.93 | 44.10 | 31.87 | 24.62 | 20.59 | 18.21 | 16.67 |
3 | 46.69 | 28.68 | 17.71 | 12.20 | 9.43 | 7.86 | 6.91 |
4 | 40.12 | 22.00 | 12.55 | 8.27 | 6.23 | 5.11 | 4.43 |
5 | 35.63 | 17.94 | 9.67 | 6.17 | 4.57 | 3.71 | 3.19 |
6 | 32.58 | 15.32 | 7.93 | 4.95 | 3.63 | 2.92 | 2.50 |
7 | 30.19 | 13.40 | 6.71 | 4.11 | 2.99 | 2.39 | 2.04 |
8 | 28.37 | 11.98 | 5.86 | 3.56 | 2.57 | 2.06 | 1.75 |
9 | 26.81 | 10.84 | 5.18 | 3.11 | 2.23 | 1.77 | 1.50 |
10 | 25.48 | 9.93 | 4.66 | 2.77 | 1.98 | 1.57 | 1.33 |
動作テストのついでに作成しただけで,内容に大した意味はありません.概ね予想通りになっています.少し思うところがあるとすれば,頻度 10 を閾値にしてもアノ大きさになるのかというくらいです.