黒澤公人のドキュメンテーションシステムの100年(1960年-2060年)

一次情報ダイレクトアクセス時代のドキュメンテーションシステム


テーマ:
そして最終的に到達した数字が、1億2986万4880冊だ。Google社は「少なくとも8月7日までは」この数字は正しいと書いている。
AD
 |  リブログ(0)

テーマ:

Google社はシステム作成の最終プロセスにおいて、カタログや書籍販売業者など、多数の図書目録提供者から大量のメタデータを集め、それらの解析を集中的に実施した。最初の未加工データは10億件近くにのぼったものの、そこから、すぐにわかる重複分が削除され、データは6億件にまで削減された。

その後は「選別」の作業が行なわれた。異なる属性やフィールドを使用して、重複している図書を特定するという作業だ。同一の図書が複数の異なる出版社に登録されていたり、まったく同じ書籍が大きく異なる2つの題名を持っていたりという紛らわしいケースもあった。この作業によって、2億1000件にまでデータは縮小した。

そして、書籍以外のアイテムが削除された。「マイクロフォーム」(800万件)、レコード(450万件)、動画(200万件)、地図(200万件)、ISBN付きのTシャツ(およそ1000件)、そして七面鳥料理用の温度計(1件。エイプリル・フールのジョークとして、ある図書館の目録に含まれていた)などだ。

そして最終的に到達した数字が、1億2986万4880冊だ。Google社は「少なくとも8月7日までは」この数字は正しいと書いている。

AD
 |  リブログ(0)

AD

ブログをはじめる

たくさんの芸能人・有名人が
書いているAmebaブログを
無料で簡単にはじめることができます。

公式トップブロガーへ応募

多くの方にご紹介したいブログを
執筆する方を「公式トップブロガー」
として認定しております。

芸能人・有名人ブログを開設

Amebaブログでは、芸能人・有名人ブログを
ご希望される著名人の方/事務所様を
随時募集しております。