国研が大規模書き言葉コーパスのオンライン試験公開 | ことばとくずかご。

ことばとくずかご。

大学院のときに勉強した辞書や社会言語学のことを

忘れないうちに記録しておこうと思います。

国立国語研究所が日本語コーパスを試験公開したようです。

大規模書き言葉コーパスのオンライン試験公開
http://www.kokken.go.jp/syokai/press/07_01/
http://www.kotonoha.gr.jp/demo/

ちなみに「現代日本語書き言葉均衡コーパス」と名付けられているものの、現在検索できるのは政府刊行白書と「Yahoo!知恵袋」。

***引用ここから***

本サイトの検索対象となっているサンプル
現時点 (2007年5月末) で検索できるのは、政府刊行白書から無作為抽出されたサンプル(1500件、500万語)と、参加者同士で知識を教えあうことを目的としたQ&A形式のナ レッジコミュニティーサービスである「Yahoo!知恵袋」から無作為抽出されたサンプル(45725件、500万語)の二種類のデータです。今後とも、 作業の進展にともなって随時データを拡張します。当面、国会会議録、一般書籍、新聞などが候補となります。

***引用ここまで***

このサイトの公開目的は以下のようにも書かれていて。

***引用ここから***

本コーパスでは、今後、数万人におよぶ著作権者の方々にサンプルの無償利用の許諾をお願いすることになります。本サイトは、著作権者の方々にサンプルがどのように利用されるかを理解していただくために開設したものです。

***引用ここまで***

つまり全然いまのところ均衡はとれていないし、
それが今回の目的ではないようですが、
とりあえず公開されたようなので、ひとまずこちらに。