LODとメディア(9):アメリカ NYT編その3(Linked Open Dataへ) | NOBUOTTO

LODとメディア(9):アメリカ NYT編その3(Linked Open Dataへ)

ニューヨーク・タイムズは100年におよび、5種類のカテゴリ(記事主題、人名、組織名、地理情報、作品名(書籍、映画、演劇etc)として100万語以上の語彙をシソーラスとしてまとめてきています。  これのシソーラスはTimes Topicsで使われると同時に、頻度が高いもの27,000個のタグについてはTimesTagAPIとして公開しています。
 2009年06月26日、ニューヨーク・タイムズは第1段階としては1980年まで遡って、第2段階では1851年まで遡ってタグを提供すること、またこれらのタグを広範な人が自由に使えるようにクリエイティブコモンズ3.0ライセンスで提供することを発表しました。
 と同時に、これらをLined Open Data Cloudへリリースすることも発表しました。
 2010年1月13日までのニューヨーク・タイムズのLinked Open Dataサイトで公表されているタグの数は以下の通り総数10,467件になります。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
タイプ   人手によるタグ   自動でのタグ     トータル
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
人名    4,978         0          4,978
組織名   1,489       1,592          3,081
地名    1,910         0          1,910
記事記述子  498         0           498
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
                            10,467

 例えば、「マドンナ」であれば、本サイトにある「m一覧」にいけば、タイプ(type)としてPerson,ラベル(Label)として「Madonna」そしてマドンナのURIがあり、このURIをたどるとマドンナのデータとして記事数(nyt:associated_article_count),最初に掲載した日時(nyt:first_use)、最近の日時(nyt:latest_use)、また記事検索を行う場合のクエリー文(nyt:search_api_query)などなどのデータを得ることができます。
 これらのデータは、RDF/HTML形式で公開されると同時に、SKOSファイルでもダウンロード可能となっています。


参考サイト:
[1]2009年06月26日 ニューヨーク・タイムズシソーラスリリース。Linked Data Cloudへ参加NYT to Release Thesaurus and Enter Linked Data Cloud
[2]2009年10月29日 最初の5000タグをLinked Data Cloudへ開放First 5,000 Tags Released to the Linked Data Cloud
[3]2010年01月13日 Lined Data Cloudへ5000のタグ追加More Tags Released to the Linked Data Cloud