形態素 N-gram コーパスの修正版
追記(2010-09-22):完成版がこちら(N-gram コーパス - 日本語ウェブコーパス 2010)にあります.
ダウンロード
前回(ウェブコーパスの一部から形態素 N-gram コーパスを作成しました - やた@はてな日記)の N-gram コーパスに文末記号(</S>)を加えて,Web 日本語 N グラム第 1 版(http://www.gsk.or.jp/catalog/GSK2007-C/GSK2007C_README.utf8.txt)と同じように,Ngm-KKKK.xz というファイルにそれぞれ 1000 万 N-gram を格納するようにしました.
頻度 100 以上 - ファイル名(URL) | サイズ [bytes] |
---|---|
http://dist.s-yata.jp/2010/0806/over99/1gms/1gm-0000.xz | 1,267,340 |
http://dist.s-yata.jp/2010/0806/over99/2gms/2gm-0000.xz | 15,902,700 |
http://dist.s-yata.jp/2010/0806/over99/3gms/3gm-0000.xz | 31,995,068 |
http://dist.s-yata.jp/2010/0806/over99/4gms/4gm-0000.xz | 27,540,020 |
http://dist.s-yata.jp/2010/0806/over99/5gms/5gm-0000.xz | 17,648,056 |
まとめてダウンロードする場合は wget を使うと楽です.例えば,ファイルリスト over99.txt をダウンロードした後,以下のようにすれば,2010/0806/over99/Ngms/Ngm-KKKK.xz という名前を付けてファイルを保存してくれます.後は,煮るなり焼くなり好きにしてください.
$ wget -xnH -i over99.txt
著作権について
ブックマークで「商用利用は大丈夫なのかな」というコメントがあったので,法律については素人ですが,少しだけ考えてみました.結論から言うと,私は,大丈夫だと思います.
そもそも,ウェブコーパスの作成や N-gram コーパスの公開が法的に問題ないと考える理由は,2009 年の著作権法改正(http://www.bunka.go.jp/chosakuken/21_houkaisei.html)にあります.
情報解析の過程では,情報をコンピュータに蓄積した上で,必要な情報を整理し,抽出すること等が行われていますが,これらの行為は,著作物の表現そのものの効用を享受する目的で行われるものではなく,情報を収集し,統計的に処理する目的で行われるものです。したがって,権利者の権利を保護すべき著作物利用としての実質を備えないものであると考えられます。
現行の著作権法では,これら複製等の行為について明確に適法とする規定はなく,形式的には著作権者の許諾を受けなければ行うことができないと解される可能性があります。
このため,本改正では,こうした行為について,情報解析の社会的意義等と,その利用に伴い著作権者の利益が害される程度が低いことにかんがみ,権利を制限することとしています。具体的には,著作物は,大量の情報から,それを構成する言語,音,影像等の要素を抽出し,比較分類その他の統計的な解析を行うことを目的とする場合には,必要と認められる限度において,記録媒体に記録することができることとしています。
この内容からすると,問題になりそうなのは,N-gram コーパスが,著作権者の利益を害する程度の低い,統計的な処理の結果であると認められるかどうか,およびに N-gram コーパスの用途が研究に限られるかどうかだと思います.
前者については,N-gram コーパスは統計的に処理した結果と考えても差し支えなさそうです.N-gram コーパスを見て喜ぶような存在は,只人ではありません.きっと言語処理の研究者か何かです.それにしても,本来の著作物として楽しんでいるわけではないでしょう.
後者については,「情報解析の社会的意義等」をかんがみるならば,「使えなかったら意味ないよね」という話になると思います.商用利用をするとなれば,何らかの付加価値が生まれるようなサービスを考えるでしょうし….
最後に,私自身は,利用を制限するようなことは考えていません.なぜならば,その方が楽しそうだからです.