ソーシャル系Webサービスのデータマイニングで社会科学をしてみたい | サイバーエージェント 公式エンジニアブログ
こんにちは、技術本部 秋葉原ラボのデータマイニングエンジニア の高野(@mtknnktm)です。弊社で運営しているゲームやコミュニティなどのソーシャル系Webサービスをより良くしていくためのデータ関連のあれこれを主な業務としています。そんな日々の業務の中で、ソーシャル系Webサービス上での現象や課題が、社会科学系の研究と関連してるんじゃないかなーと思ったので、その関連についてつらつらと書いてみました。最近、ソーシャル系Webサービスのデータを使った社会科学研究は非常に盛んで、SocInfoCOSNSocialComIC2S2などなど、それを含む Computational Social Science をテーマとした新しい国際会議も数多く開催されています。本記事で取り上げるものは、私が主に興味のあるものを挙げたため、かなり偏りが有るかと思いますが、その他にもこんな興味深いトピックがあるよ! というものがありましたら教えていただけますと幸いです。また、各トピックに関する不足・誤りなどもご指摘いただけますと幸いです。
本記事でご紹介するトピックは以下です。
  • 協調行動
  • 社会的グルーミング
  • 性選択(性淘汰)
  • 内集団バイアス
  • ペドフィリア検出
ソーシャル系Webサービスの「ソーシャル」の分析
ソーシャル系Webサービスを含む、Web系のサービスのデータ分析の基本的な流れは、第一にサービスの目的に対する現状を表現する指標(Key Performance Indicator: KPI)を設計し可視化すること、第二にそのKPIを向上させるためにサービスのデータを分析し、施策に結びつけることだと思います。例えば以下の様なイメージです。
こういった分析の多くはユーザ個人の行動や属性に着目して行われるかと思います。例えば、「◯◯という行動をした人は継続してサービスを使い続けてくれる、つまり、その行動はサービスを継続して使用していただくような良さを知っていただくために重要であるはず。そのため、その行動をユーザにしていただきやすい作りにサービスを改善しよう。」と言った感じです。私の普段の業務もこういった分析が中心です。
一方でソーシャル系Webサービスはその名の通りーザ間の社会的なやりとりがサービスの重要なポイントです。例えばソーシャルネットワーキングサービス(SNS)ならば、ユーザ間のコミュニケーション、ソーシャルゲームだったらユーザ間の協力と競争などです。このようなヒトの社会的な側面について、社会心理学、進化心理学、理論生物学、進化生物学、人工知能、複雑系/人工生命など多くの分野で研究されいます(私も大学院で複雑系/人工生命の分野で社会性の進化についてシミュレーション研究をしていました)。こういった分野の理論・実験・調査研究をソーシャル系Webサービスと比較すると、ソーシャル系Webサービスは実際にヒトが自分の意志でサービスを利用し、サービスの仕組みの範囲内で任意のタイミングで任意の行動が可能であるため、理論的・実験的な先行研究のようにモデル化された環境よりも自由に振る舞うことができます。そして比較的小規模なものでも数万人以上の多くのユーザの社会的相互作用であるため、非常に大きな集団サイズを仮定することの多い理論研究(数理解析・シミュレーション)との対比がしやすくもあります。また、サービスの仕組みにより調査研究が対象としている実社会よりはユーザの行動は制限されるため、現実の社会よりも理解が容易、かつ、ユーザの行動はログとして記録されるためより詳細な分析が可能になります。弊社ではユーザの行動ログはHadoopを基礎とした大規模データ解析基盤 Patriot [善明13] に格納されるため、非常に大規模なデータ分析も手軽に容易に可能です。
したがって下図のように、先行研究の上にソーシャル系Webサービスのデータ解析を位置づけることができます。このように位置付けることで、非常に多く存在する先行研究の知見や枠組みは、ソーシャル系Webサービスのユーザの行動理解に利用でき、サービスをより良くしていくために有用なはずです。また、ヒトの社会性に対する定量的な研究において、ソーシャル系Webサービスのデータ分析は強力な手段であり、ヒトの社会的行動に関する知見を得ることができるはずで[Bainbridge07Szell10, Arnaboldi13a]。以下では、具体的にどのような社会科学のトピックがソーシャルサービスに関連するかについて述べていきます。

図: ソーシャル系Webサービスのデータマイニング研究の位置付け

協調行動
相互の協調はヒトをはじめとして多くの動物に見られる現象であり、社会を形成する上で重要な要素です [Fehr03, Smith00]。しかし、他個体に協力する利他的な個体は利己的な個体と相互作用すると搾取され、利己的な個体だけが高い利益を得るため相互の協調状態は不安定なはずです [Axelrod06]。それにもかかわらず我々は社会的生活を営む上で相互に協調し合っています。したがってヒトは進化の過程において相互の協調関係を維持するメカニズムを獲得してきたはずです [Barkow95]。
このようなヒトやその他の動物の協調行動を説明するために非常に多くの理論的・実験的研究が為されてきました [Nowak06, Rand13]。そのため、安定した相互の協調状態を実現するにはどういった仕組みが必要か? それを促進するような環境はなにか? といった知見が非常に多く得られています。そういった知見をサービスの仕組み作りに活かしたり、また、サービス内でのユーザ同士の協力関係について分析することで、ヒトの協調行動についての知見が得られるかもしれません。協調行動の研究は、自分は損をしても相手に利益を与えるという協調行動を定義するために、個体間の利害が明示的に存在するモデルを作り、それの数理・数値解析や心理学実験をするという研究が多く存在します。したがって、ソーシャル系Webサービスの中でも複数のユーザの協調と競争要素が明示的にゲームの仕様に盛り込まれているソーシャルゲームは協調行動の研究と相性がいいと考えています [高野15]。
例えば、協調行動の維持には、協調するか否かといった協調行動に関する戦略と共に、どの相手と相互作用をするかというパートナー選択が重要であることが、多くの理論研究 [Santos06, Ichinose08, Chen09, Damore11, Chen12]、実験研究 [Fehl11, Rand11, Wang12] で示されています。我々は弊社で提供しているソーシャルゲーム ガールフレンド(仮)における協調行動とパートナー選択行動について分析し、グループ間移動(ガールフレンド(仮)では部活をやめて別の部活に入る)ができることで、協調的なユーザが、今所属しているグループに不満があったときに他のグループに移ることができ、それが協調行動を促進していることを示しました [高野15]。
また、TwitterやFacobook、Google+のようなSNSにおける、情報提供(コメントの投稿)とそれに対する反応(リツイートやいいね)に対して、メタ規範ゲームという枠組みを適用することで、協調行動として扱えるようにした理論研究 [鳥海12, Hirahara14] もあり、明示的な競争と協調という要素が存在するソーシャルゲームだけでなく SNS にもアプローチすることができるかもしれません。

社会的グルーミング
社会的グルーミングとは、複雑な社会での仲間関係などの社会関係の構築や確認の手段として機能している社会的行為です [Wikipedia - Social Grooming]。ヒト以外の霊長類では社会的グルーミングは毛づくろいとして観測されています [Nakamura03]。一方で、我々はそういった毛づくろいをほとんどしません(親子や恋人など非常に親しい関係でのみ [Nelson07])。それは、ヒトのグループのサイズは他の霊長類よりも非常に大きいために、毛づくろいという時間や手間が掛かり、かつ、一対一でしか実行できない行為によって社会関係を構築することは難しいからだと言われています [Kobayashi97, Dunbar04]。最もヒトに近いチンパンジーのグループサイズが数十程度である一方、ヒトは150人程度と推定されています [Dunbar00]。この150人という数値はダンバー数と呼ばれています。この数値はオフラインの集団 [Zhou05] だけでなく、Facebook [Arnaboldi13b] やTwitter [Gonçalves11] というインターネット上での社会関係データを使った分析でも確認されています。ヒトはこのような多くの相手と社会関係を構築するために、時間や手間がかからない低コストな社会的グルーミング手段として、視線 [Kobayashi97] や一度に複数人に実行可能なうわさ話 [Dunbar04] といった社会的グルーミングの手段が進化したと言われています。
SNSで考えると、例えばFacebookのいいねは最も低コストなタイプの社会的グルーミングと言えるでしょう。このような社会的グルーミングの性質を知ることで、そのサービスが狙いとする社会的関係の濃さに適切なコミュニケーション相手の人数を推定する、または、コミュニケーション相手の人数をある範囲内で制限することで狙いとする濃さの社会的関係を実現するといった形でサービス開発・運営に役立てられるかもしれません。弊社で提供しているサービスで言うとアメーバピグ755などのコミュニティサービスのデータ分析によってアプローチできそうです。
また、我々は ガールフレンド(仮) のデータを分析することによって、相互に協調し合うような協力関係を構築・維持するためには簡便なメッセージ(ガールフレンド(仮)では "かわいいね")を相互に送り合うことが重要であることが示され、これも社会的グルーミングの一種ではないかと考えています [高野15]。また、Twitter上での数年に渡るコミュニケーションデータを分析することで、ヒトのオンライン(SNS)上での社会的関係の構築・維持の仕方とオフライン(インターネット外)でのそれが異なることが示されています [Arnaboldi13a]。
社会的グルーミングと社会的グループサイズの研究は、ヒトの脳が他種に比べて極端に大きいことを説明する有力な仮説「社会脳仮説」とも深いつながりが有り [Dunbar00]、ヒトの知性の起源に関する興味深いトピックだと言えます。
我々の社会におけるオンラインでのコミュニケーションが占める割合は、今後、より高まっていくと考えられます。しかし、150人程度のグループという環境でオフラインなコミュニケーションをして進化してきたヒトの社会が、オンラインコミュニケーションを獲得することによってどのように変化するか? はまだ十分な研究がされておらず、その影響を把握することはヒトの社会の未来にとって重要であると言えます [Arnaboldi13a]

性選択(性淘汰)
性選択とは進化生物学における重要な理論の一つで、異性をめぐる競争を通して起きる進化のことです。この理論によって生物種の奇妙な形質が進化した理由を説明できる場合があります。有名な例ではクジャクの雄はなぜ美しい? [長谷川05] という話題でしょう。クジャクの羽は非常に美しいですが、その派手さ故に天敵にみつかりやすい、大きいため機敏な動きがしづらい、など生存競争において多くのデメリットがあります。そのようなデメリットがあるにも関わらず、なぜこのような派手で大きな羽を持つようになったか?(同時に、なぜメスがそんな生存に不利なオスを選ぶか? )をメスがそのような羽を好み、メスに選ばれるためという異性による選択で説明しようとするものが性選択理論です。
我々も有性生殖により繁殖をするので、当然、ヒトの性的嗜好もこの性選択が関わってくるはずです。ヒトの性的嗜好に関しても様々な研究がなされており、それらをダンバーが一般向けの著書 友達の数は何人?[Dunbar11] の7章 今夜、ひとり? でわかりやすく紹介しています。例えば、ヒトでは「ヒトは異性に対して自分の何をアピールするか?、そして、ヒトは異性に対して何を求めるか? 能力か? 美貌か? 財産か? 若さか? 性格か?」について知るために、恋人募集広告を分析した研究 [Douglas92] などが紹介されています。それを含めたダンバーが著書で紹介した研究の結果をまとめると、男性は自分の子供をより多く増やせそうな受胎能力の高そうな女性(若く健康的な女性)を求め、女性は自分の子供の生存率が高くできそうな基盤(つまり財産、および財産を増やせる能力)を持った男性を求め、そしてそれぞれ、それを相手にアピールしていた(男性は学歴や財産、女性は美貌や若さ)そうです。なんだか身も蓋もないですが、遺伝子を多く残すための進化的に適応的な戦略と言えるでしょう。
上記の研究は恋人募集広告を手動で分析した例ですが、Webサービスでいうと婚活サービス・出会い系サービスが類似したものと言えます。そのようなサービスのデータを分析することができれば、上記の研究をより多くのデータを使ってより詳細に分析することができると考えられます。また、既存研究やそこで得られた知見をサービスに活かすこともできると考えられます。例えば、各ユーザ属性や行動に基づく異性獲得戦略について知ることができれば、それを元にした双方が満足するような高精度のマッチングや、異性獲得戦略の定義・分類によって、婚活サービス(まじめに出会いを探している人のためのサービス)なのにそうではない出会いを求めるユーザのフィルタリングなどに活かせるかもしれません。

内集団バイアス
内集団バイアスとは内集団ひいきとも呼ばれ、自分の所属するグループ(内集団)のメンバーに好意的な態度を取り、他のグループ(外集団)のメンバーを卑下する態度を取るよな行動傾向のことです [柿本97]。ここで言うグループは国家、性別、人種、民族、学歴、会社、方言、所属部署、仲の良しグループ、喫煙者/非喫煙者、好きなスポーツ、世代、服の趣味などなど様々な大きさ・概念があり得ます。また、より詳細な傾向としては、グループの地位とグループ内の地位に依存してグループ内 / 外の人に対する評価の傾向が変わるという傾向があることが指摘されています [杉浦15]。この研究では高地位グループ内の低地位者は、同グループの高地位者よりもグループメンバーを高く評価するひいきせず他のグループを卑下しがちであり、低地位グループ内の高地位者も他のグループを卑下しがちである傾向が強いことが示されています。この結果は高地位グループ低地位者は他のグループメンバーを評価するとグループ内の地位差がより開いてしまうため、低地位グループ高地位者は他のグループとの地位差を埋めるためという、社会的な戦略の結果であることを示唆しています。霊長類においてグループ内の地位の高さ(いわゆるボス猿とか)は生殖活動においても極めて重要です。このような内集団バイアスを示す傾向も進化的に獲得された形質であると言えます [小野田13]。
内集団バイアスによる外集団卑下は人種差別・部落差別・いじめなど深刻な差別にも関連するため重要な課題です。インターネットには大量の有用な情報・手軽で楽しいコミュニケーションと共に、炎上やクソリプを言われるような相手を見下すような発言が少なからず存在します [Yardi10ソーシャルメディアで炎上する原因:ミクダス仮説に関する議論 - Togetterまとめ]。また近年ネットいじめと言われる嫌がらせも大きな問題になっています [Homa14, Wikipedia - ネットいじめ]。その中には内集団バイアスにより外集団卑下に起因するものも存在するでしょう。こういった問題は弊社や他社の多くのコミュニティサービスで発生しており、各社解消のために力を入れています(弊社の取り組み例: [健全なサービス運営のための取り組み])。
したがって、既存研究の内集団バイアスに関する知見のネットいじめ・炎上・クソリプの緩和への応用ができるかもしれません。また、オンラインでのいじめ・炎上・クソリプはオフラインな場で行われる差別的な行為よりも、発言者や被発言者のデータを集めやすく処理も比較的容易です。例えば、発言のテキストだけでなく、発言者・被発言者の相互作用ネットワークやそれのダイナミクスに関するデータも得ることができる場合があります。それによって、内集団バイアスというヒトの形質が生み出す現象に対して、オフラインデータを使った研究とは異なった側面からのアプローチができるため、新たな知見が得られるかもしれません。
一方で、内集団バイアスは外敵から身を守るためにグループ内での協調を促進する基盤としても働いている可能性があり[小野田13]、グループ間の競合が強いほど、グループ内の協調は増加したという報告もあります [Gneezy11]。そのため、例えばソーシャルゲームなどでグループメンバーが互いに協力するなど、よりチームワークを楽しめるサービス作りとも関連は深いと考えています。

ペドフィリア検出
警視庁の調査「コミュニティサイトに起因する児童被害の事犯に係る調査結果(平成25年下半期)」によると、児童の性犯罪被害数は出会い系サイトがやや減少傾向に有り、コミュニティサイトが増加しているようです。コミュニティサイト経由での犯罪被害に遭った児童は平成25年の1年間で1,293人(前年比20.2%増)です。弊社もコミュニティサイトを複数運営しており、それらのサービスの健全性を保つために力を入れています [健全なサービス運営のための取り組み]。
ペドフィリア(のうち未成年に性的被害を及ぼす有害な人の)検出としてオンラインチャットユーザのうち、未成年ユーザを成人による性的被害から守ることを目的として、オンラインチャットログの分析研究がされています [Gupta12Cano14] 。これによると未成年ユーザにアプローチするペドフィリアの振る舞いは、複数の段階に分けられ、彼らの特徴ある振る舞いは割と早い段階から現れる傾向があることが示されています。つまり、(実際に会おうとするなど)具体的な行動に移すかなり前に目星を付けられるかもしれないということです。もし、早い段階でそういったユーザの検出がある程度可能になれば、従来のフィルタリング [福田15] だけでなく、さらに効果的な対策が可能であると考えられます。

まとめ
上記で述べた5つのトピック以外にも多くのソーシャル系Webサービスと関連する研究が存在し、例えば情報拡散というトピックでは社会ネットワーク上での拡散の理論的研究 [Kawamoto13松原13] 、TwitterなどのSNSのデータを使用した研究 [Shu10] 、デマ拡散防止 [梅島11白井12] や炎上防止 [調和技13] などの研究・応用がなされています。SNSでの書き込みなどの情報からコンテンツのヒット度合いを予測するヒット現象の数理 [Ishii12] など興味深い研究が多くあります。また、弊社秋葉原ラボでは他にも弊社サービスの膨大な会話ログを利用した雑談対話システムの研究開発 [牧田15] をしていたり、博士課程在籍中の同僚も金融工学の関連でいろいろと考えているようです [アキバ系社会人ドクターのすすめ]。
ここまで述べてきたように、弊社のようなソーシャル系Webサービスを持つ企業には社会科学研究に深い関連がある興味深いデータが多く存在しています。我々はまだ十分な成果を出せた状態ではないですが、サービスへの貢献とともに論文・国際会議への投稿も積極的にしていきたいと考えています。今後はより上記のトピック(やそれ以外の多くの興味深いトピック)に関する調査・研究を進め、それらの知見をサービスへ適用することで楽しい / 健全なサービスづくりへと活かし、また、社会科学研究への貢献ができたらいいなぁとか考えています。つらつらと書いてみた本記事ですが、ソーシャル系Webサービスのデータ分析に少しでも興味を持っていただければ幸いです。

参考