とっても有名なこの図。

ブログ用検索エンジンの Technorati が四半期ごとに出しているデータ集、
state of blogsphere のデータで、かつて CEO だった デビットさんの
ブログ
で公開されています。

technorati
via Sifry's Alerts: The State of the Live Web, April 2007

で、これによると Technorati は7,000万のブログをトラックしていて、
そのうち日本語のブログが占める割合は37%なのだとか。

7,000万というのは相当大きなサンプル数なのである程度信用できるとは
思うのですが、それと、ブログを人間が更新しているかは別問題。

「スパムが落とせてないだけじゃん?」とはよく言われていることなんですが
この度ニフティさんが調査したみたいです。
ニフティ、スパムブログのフィルタリング技術を開発|ニフティ株式会社

これによると、国内のブログの4割がスパム。
単純に考えても日本語ブログのシェアは14.8%程度では無いかというところですね。





というこの結論にご納得いただけます?

「そもそも母集団が違うデータじゃん」
「英語のスパムを考慮してないじゃん」
「そもそもいまさらな話じゃん」
とか書いているうちにいろいろ浮かびますね。


以下、参考
【日本語のスパムブログの割合】
○2007年10月: 39.3%
○2007年11月: 40.1%
○2007年12月: 39.7%
○2008年 1月: 39.9%
○2008年 2月: 40.5%

【スパムとしたもの】
○自動生成系
・引用スパム
・アフィリエイトスパム
・ワードサラダ
・自動マルチポスト

○アダルト系
・わいせつ記事
・出会い系
・ワンクリック詐欺

ニフティ、スパムブログのフィルタリング技術を開発|ニフティ株式会社
から、抜粋引用。スミカッコは引用者加筆