アクセス注意報
ツールを使えば、いろんな情報をウェブページから取得することができます。
最近のブログ自動投稿ツールには、記事の元となるデータを自動で手に入れる機能があるものも増えてきていますね。
Yahoo!知恵袋などから、記事の中身だけを抜き取ってくるわけです。
こういった技術は、俗に「スクレイピング」と呼ばれます。
詳しい解説はこちら。
スクレイピングが止まらない
PHPやVBなど、プログラミングを少し知っていれば、スクレイピングを行うシステムを作ることもそれほど難しいものではありません。
■ただし、
ただ気をつけなければいけないのは、そのアクセス頻度です。
必要以上に同じサイトに頻繁にアクセスするようなプログラムを作ってしまうと、場合によっては大変なことになるようです。
容疑者から見た岡崎図書館事件
http://librahack.jp/
起訴猶予ではありますが、刑事事件までに発展したケースです。
愛知県の岡崎市立中央図書館が運営するWebサイトから、ある人物がスクレイピングでデータを自動で取得するプログラムを実行したのですが、その頻度が多かったために、サイトの運営を損ねた、というものです。
その人物は逮捕され、20日間拘留されています。
■かえって危険
Yahoo!や楽天のように、ウェブ技術のことをよく理解している組織が運営するサイトでは、アクセス過多の対策が採られていることがほとんどでしょう。
APIの利用には月間での上限が決められていますし、単なる検索であっても、おそらく同じIPアドレスからの頻繁なアクセスは拒否するようになっています。
しかし、例に出した図書館のように、“ウェブにあまり明るくない”(と思われる)組織が運営するサイトでは、そんな対策は採られていないと考えたほうがいいかもしれません。
中小の組織が運営するサイトほど脆弱だ、と言えそうです。
■知らないうちに
あなたがもし、得体の知れないツールを使うときには、こういった点によく注意しましょう。
知らない間にどこかのサイトにアクセスしていることもあるかもしれません。
(ちなみに、こちらで扱っているツールはそういった点も考えています)
今日はちょっと怖い話でした。
