このコラムでは、DX(デジタルトランスフォーメーション)に初めて関わる、またこれからDXに取り組む企業経営者やマネージャーの方々を対象に、DXに取り組む際のポイントやデジタル最新技術などをお伝えしています。
皆さんの仕事の現場において、検索エンジンやSNSなどインターネット上から欲しい情報を見つけ出し、ビジネスに活用することは日々行われていることと思います。
今回は、インターネットの情報検索におけるWEBデータの自動収集とビッグデータ活用についてお伝えします。
WEBデータの自動収集 ~クローラーとスクレイピング~
インターネットから自動的にデータを収集する手法として「クローラー」、「スクレイピング」があります。クローラーやスクレイピングは、インターネットが利用されるようになった当初から存在しています。
「クローラー」とは、WEBサイトを来訪してサイト上のページのリンクを辿ってページ内のコンテンツを収集するプログラム(ロボット)のことです。皆さんが普段ネット検索で利用しているGoogleなどの検索エンジンは、まさにクローラーによって世界中のWEBサイトを巡回して膨大なコンテンツを収集し、検索インデックスに登録しています。
「スクレイピング」はクローラーとは異なり、WEBページの情報の中からルールに従って情報を抜き出す技術のことです。
例えば、複数あるインターネットショッピングサイト(ECサイト)を検索し、商品ごとの情報(商品名や販売価格など)を取得して比較用のデータベースを作成するケースを考えてみます。商品数が数点であれば自分で検索して比較することもできますが、数百点以上になると1サイトごとに検索して情報収集するのも大変ですし、新製品の登場や、料金などの情報も日々アップデートしていくことを考えると、人が毎日情報を取得しに行くことは現実的ではありません。
クローラー、スクレイピングの技術を利用すれば、自動で複数のサイトにアクセスし、WEBデータを抜き出すことができます。下の図の例では、商品ページのレイアウトが異なる複数のECサイトから製品番号、商品名、販売価格を取得してデータ比較用のデータベースを作成しています。
図:WEBクローラーツールで様々なサイトからWEBデータを自動収集する例
現在、クローラー(スクレイピング)ツールとして、Octoparse(オクトパス)、KEYWALKER WEBクローラーをはじめ多数のサービスが存在しており、大手企業をはじめ様々な企業が、マーケティング調査やSNSなどの口コミ情報収集などの目的で、クローラー(スクレイピング)ツールを活用しています。
■AIを活用したクローラーツールの登場
上記でご紹介したクローラーツールは、巡回する対象のサイトや、取得したい情報がどのページのどの箇所に掲載されているかといったページ構成の情報を事前に設定しておく必要があります。
しかし、WEBデータを調査する側のニーズとしては「まだ存在を知らないWEBサイトも含めて、欲しい情報を収集したい」はずです。また「単にWEBサイト上のコンテンツを取得するだけでなく、取得したコンテンツを解析、要約、整理したい」といったこれまで人が行っていた業務の自動化のニーズもあることでしょう。
近年、これらの課題の解決につながるAIを活用したクローラーサービスが登場してきました。残念ながら公開されているサービス情報が少なく、日本国内での活用事例が見つけられないために、具体的なサービス名までご紹介はできませんが、今後国内でもAIを活用したWEBデータの自動収集サービスが続々と登場し、WEBデータの調査業務の在り方を変え、ビッグデータ活用がより広まっていくのではないかと期待しています。
■クローラー(スクレイピング)を利用する際の注意点
前述のとおりクローラーはGoogleなどの検索エンジンサービスでも利用されている情報収集の手法であり、それ自体は違法ではありません。スクレイピングも同様です。
総務省統計局の消費者物価指数 (CPI)調査などでもスクレイピングが活用されています。
(参考:消費者物価指数 (CPI) へ のウェブスクレイピングの活用について)
しかし、クローラーを利用してWebデータの収集、活用する場合には以下の注意が必要です。
<クローラー利用における注意点>
- クローラーで取得した情報を第三者に譲渡、販売などしないこと
- クローラーが短時間で過度にアクセスするなどWebサイトのサーバーに負担をかけないこと(サービスに影響を与えないこと)
- クローラーで取得したWebデータを他のWebサイトなど外部に公開しないこと(とくに個人情報を取得する場合、本人の同意を得ずに他の目的での利用、公開は当然できません)
- 利用規約などでスクレイピングを禁止しているサイト上の情報収集は避けること(スクレイピングを禁止するWebサイトでは、代替手段としてWeb APIを公開しているケースもありますのでそちらを利用して取得しましょう)
サイト運営会社の利用規約への違反、著作権法や個人情報保護法、刑法などに違反する可能性がありますので十分注意して情報収集が必要です。基本的にクローラー(スクレイピング)で収集した情報は、自社内のデータ解析、共有目的に留めた活用が望ましいでしょう。
■まとめ
今回はWEBデータの自動収集とビッグデータ活用について取り上げました。
近年、SNS上の自社商品・サービスへの批判、評価を収集して、企業側がSNS上の消費者に直接返信するかたちでカスタマーサポートを行う「アクティブサポート」が注目されています。膨大なSNS上のWEBデータを効率よく収集する手段の1つとしてもクローラーツールが改めて注目されていくことでしょう。
以上