ソーシャルグラフ分析事始め | DataMKのブログ

DataMKのブログ

データサイエンティストという肩書で仕事してます。
最近の関心事は、オープンデータ、ソーシャルグラフ、トポロジーなどです。
オープンデータ(行政、ソーシャル)をネタに記事を書いてます。

こんにちは、dataMKです。

行政のオープンデータの記事ばかり書いているので別ネタを。
最近オープンデータというと行政のオープンデータが目立ちますが
twitterやfacebookも無料のAPIを公開していて、誰でもデータを取得できるという点ではオープンデータと言えます。今回はそのSNSデータのソーシャルグラフについて書いてみたいと思います。

昨今SNSという流行も手伝ってソーシャルグラフという言葉もよく耳にするようになりました。


ところでソーシャルグラフって何でしょう?
簡単に言ってしまえば人と人のつながりを可視化したものです。

今年の2月にはNTTソフトウェアイノベーションセンターから世界最速?のソーシャルグラフ分析技術を開発したという記事がありました。

http://www.ntt.co.jp/news2013/1302/130213b.html

実際、ソーシャルグラフ分析ってどうやってるんでしょうか?
同サイトに解析のアウトラインがわかりやすく出てました。

http://www.ntt.co.jp/news2013/1302/130213b_1.html

この技術すごく気になります。というのもソーシャルグラフってトポロジーだと思うのです。
人と人のつながりがある形を形成して、そのつながり方をどういう風に分類できるのか?
分析屋としては、燃えるお題です。

そこで手始めに簡単なサンプルを用意してみました。
簡単な分析であれば、gephiというフリーツールで分析できます。
http://oss.infoscience.co.jp/gephi/gephi.org/index.html

例えば、下記のようなグラフがあります。

DataMKのブログ

一見すると、分類不可能に見えますよね。
これをgephiのクラスタリング機能を使って分析すると下記のようになります。
DataMKのブログ


実にエレガントです!!
一見複雑な事象も、見方を変えるだけでスッキリ整理できることもあるのです。
実際のソーシャルグラフがこんなに綺麗に分類できないと思いますが手がかりにはなりそうです。gephiのクラスタリングは、Louvain法というのを使用しているそうです。

次回のこのテーマでは、別のアプローチでグラフの分析をしてみたいと思います。