Youtubeの統計情報の収集と解析

 

本ブログのルーツはshiny BOTというtwitterの自動投稿ロボット(BOT)にあります。

shiny BOTはpythonで開発された自作のサーバーアプリであり、sunny journeyさんの動画における再生数やコメント数のような統計情報、最新動画の投稿やタグなどの動画情報コメントをYoutubeから取得しており、取得したデータを解析することで、データ可視化や再生数予測、削除コメントの検出等を行っております。

すなわち、①Youtubeからのデータ取得、②データの解析、③twitter(X)で発信という一連の処理を自動で行うことができます

shiny BOTの概要です(shiny BOTの出力先であるshiny journeyへのリンクはブログのtwitter欄からどうぞ)

 

特に再生数の追跡&解析機能は本アプリにおいて特徴的な機能であり、再整数の時間変化を追うことで、「再生数の予測」、「新規視聴者の検出」や「視聴者層の変化の検出」も行うことができます

 

今回の記事はshiny BOTによる再生数の追跡を通して最近見えてきたことについて書こうと思います。

結論から申し上げますと、sunny journeyの視聴者層が大きく変化しており、熱烈なファンではないいわゆる中間層の大幅な離脱がデータから示唆されております。

 

再生数予測機能自体の説明もする機会が少なかったため、ここでまとめさせて頂きたいです。

 

  まとめ

 

・shiny BOTはYoutubeの再生数を自動で取得し解析することで最終的な再生数を予測することができる。

・再生数が予測より大きく上振れするときは、新規層が視聴している可能性が高い。

・再生数予測はマニアな視聴層を観測することで行っているため、普通な視聴者層の増減は予測精度に影響する。

・再生数予測の結果から、大量の普通な視聴者の離脱が示唆されており、この変化は現在進行形で起こり続けている。

 

  再生数の時間変化と再生数予測

 

早速ですが、sunny journeyさんのガタタンラーメン回のデータを用いて再生数の時間変化を見てみましょう。

ガタタンラーメン回はこの界隈(自分だけですが)では有名であり、以下の理由で標準データとして良く活用されます。

 

・ガタタンラーメン回は再生数予測が安定していた時期の動画であり、視聴者の母集団を良く反映している。

・当時の動画の中ではかなり再生数が少ないため、後述する上振れによる予想再生数のズレが少ない。

 

ちなみに、動画の内容は良く知らないです。

 

以下が実際の再生数の推移です。

動画投稿から約1日目で最終的な再生数の50%に到達し、7日後には90%、21日後にはほぼ再生されることが無くなり最終的な再生数である総再生数に到達します。

Youtubeの動画再生の半分が1日で行われることに驚かれた人も多いでしょう。

動画が21日で再生されなくなる理由は、sunny journeyさんは新規の登録者が獲得できておらず(むしろ減っている)、そのため過去動画が再生されにくいためと考えております。

 

shiny BOTは投稿後7日後の再生数を投稿直後(3.5時間後)の再生数から予測することで、最終的な再生数を予測しております。

 

  どうして予測ができるのか

 

原理としては簡単で交通量調査のようなことをやっております。

物凄く乱暴なたとえですが、早朝の交通量を調べるだけでその日の道路の込み具合が分かるため、その日一日の交通量が分かるイメージです。

交通量の場合は事故が起こったり、他県から来た人が道に迷ってしまったりで、毎回同じような交通量にはなりませんが、sunny journeyさんの動画は毎回同じような人が同じようなタイミングで見ているため、同じような再生数の時間変化を示します。

上のグラフは投稿から5時間後の再生回数で全ての再正回数を割ってあげたグラフです(縦軸の表記が回になってますが、正しくは5時間後の再生回数に対する再生回数の比です)。

それぞれのカラフルな線は異なる動画の再生回数の推移で、動画が違うので毎回再生回数が違うはずなのに、ご覧のように基本的に同じような形になっているのが確認できます(緑色が外れている理由は後述)。

このように同じような再生数の推移を示すのがsunny journeyさんの動画の特徴であり、その理由はsunny journeyさんの登録者に大きな変化が無く、動画を見ている人が毎回同じような人たちになるからと考えてます。

 

毎回同じ形の再生数の推移になるなら、投稿直後の再生数だけ分かれば21日後の再生数も分かるはず

これがshiny BOTが動画投稿後わずか3.5時間後に21日後の再生数を予測できるしくみです。

予想精度ですが、バックテストの結果として予測値が±10%以内に収まるぐらいには高精度です。

 

  予測値から上振れする場合

 

高い精度を自慢して早々ですが、実は予測が全く上手くいかない場合があります。

途中から予想よりも動画が伸びてしまった場合です。

Youtubeのお勧め動画に載ってしまった場合、普段は視聴されない人にも動画が紹介されるため、当初の予想よりも再生数は上振れします。

 

特にこの上振れは再生数が大きい動画でおこりやすく(起こらない動画もあります)、再生数が大きい=Youtubeに紹介されやすい動画であるため、上振れの理由は良く説明できます。

 

以下は先ほどと同じ画像ですが、緑色のラインが一本だけ外れております。

この動画は上振れが起こった動画で、みずきさんがオランダ旅行に旅立つ一日目の動画でした。

新規のシリーズであるため動画的にも期待度が高く、再生数も17万再生と高い水準を示したため、Youtubeにより広く拡散されたと考えられます。

ざっくりですが、予想値の1.4倍でしたので、普段の視聴層に加えて5万人程度の新規層が視聴したと考えられます。

 

以上のように、再生数の上振れは解析上はノイズとなりますが、普段見ない人にどれだけ動画が拡散されたかを判断する指標として使えると考えております。

 

上振れが顕著な例として、最近の訴訟動画が挙げられます。

予測値は22万再生でしたが、どんどん再生数が伸びて最終的に40万再生近くまで回りました。

青いラインが訴訟動画の再生数の推移で、途中でだれることなくほぼ直線的に再生数が増大しており、他の動画の再生数の推移とまったく異なる様子が見受けられます。

 

今までの議論から、実際の再生数から予測値を引いたものが新規の視聴者数と考えられます

訴訟動画は予測値22万回、再生数40万回であり、実に20万人近い新規層により視聴されたと考えております。

 

余談ですが大量の新規視聴があったにも関らず、チャンネル登録者数は増大するどころか訴訟動画投稿を機に減少を続けております。

新規の視聴者がいても視聴者として定着するかどうかは別の問題のようです。

 

  予測システムの問題点と新たに見えた兆候

 

Shiny BOTの再生数予測システムは他にも問題点として、動画再生直後の再生数を予測の指標とするため、予測に使っている再生数と全体の再生数の性質が異なる点が挙げられます。

言葉では分かりにくいので例を挙げますと、皆さんも待ちに待ったYoutubeの動画が投稿された時、なるべく早く見たくなると思います。

すなわち、投稿直後の視聴者は視聴者の中でも意識が高い視聴者であり、いわゆるマニアに近い方々です。

つまりは、shiny BOTが再生数予測に用いるデータはマニアに由来するものであるため、マニアの動向だけを見て全体の動向を予測しているため、普通な視聴者の人数が大きく変わってしまうと、予測精度が大きく低下してしまいます。

 

実際に懸念していた事態が観察されたのは、7月初旬の手術報告動画が発信された直後であり、実際の再生数が予測値より低くなる状況が続きました

上のグラフは実際の再生数に対する予測値のズレを動画ごとにプロットしたものです。

データのばらつきの中心を示すピンクのラインにご注目ください。

ざっくりですが、手術動画前までは0%、手術動画直後は-15%とデータのばらつきの中心がズレている様子が確認できます。

 

この現象は視聴者の層が大きく変わってしまったと考えると説明出来ます。

今回の場合は、予想値よりも実際の再生数が少なくなっているため、普通な人の割合が減ってしまっていると考えると結果を良く説明できます。

すなわち熱心に動画を視聴するマニア層ではなく、視聴意識が低い中間層が大量に離脱したと考えられます。

理由の考察ですが、手術の成功という治療上の区切りが見えてしまったため、動向を見守っていた視聴者が安心して離脱したためと考えております。

 

更にこのような継続的な下振れは1度だけではなく、誹謗中傷動画の投稿後の動画でも観察されました

直前のグラフでいうと、最後の3ポイントの中心位置が-40%弱のところまで降下している様子が伺えると思います。

(最新の2つの動画は、投稿間もないため予測値を用いていますが、投稿後12時間経過時のデータを用いているため、通常の3.5時間経過時の予測結果と比較しはるかに高い精度で予測できます。)

 

原因は恐らく訴訟動画に対する嫌悪感だと考えられ、訴訟動画の直後にはチャンネル登録者数の減少も確認され、多くの離脱者がいたことを示唆しております。

 

このようにここ2か月でsunny journeyさんの視聴者層において中間層の大量の離脱が示唆されており、ばらつきの中心値が40%近くまで減少している点を見ると、7月以前と比較して40%近い普通の視聴者がドロップアウトした可能性があります。

 

中間層の大量離脱は衰退の兆候ではありますが、考えようによっては視聴者の選別が行われているのかもしれません。

つい先日も釣りサムネ疑惑でもうひと炎上しましたが、これもマニアな視聴者のみを選別し精鋭のサニファミ軍団を作るための布石なのかもしれません。