分析初心者の方へシリーズも終盤に差し掛かってきました。今回からは
分布への理解になります。その前に過去の流れがわかっていないと基本
を脱線しかねないので過去記事分は下記リンク先を参照してください (^-^)/
参考 : 分析初心者の方へ その1
参考 : 分析初心者の方へ その2
参考 : 分析初心者の方へ その3
参考 : 分析初心者の方へ その4
そして今回は分布の理解ですが、その前に分布の理解をするために分布
を作成するプロセスを覚えておきましょう。あくまでも例題なので何の意味
があるのかは度外視しますので注意してくださいね (;^_^A
【時系列を加工してヒストグラムを作成する】
まず前回の記事内容に従いますと時系列データを加工する必要があります。
理由は時系列データから離れた視点で時系列データを考察するためです。
時系列データに対して直接統計解析を行うことも重要ですが、その結果得ら
れる情報には限りがあります。また、時系列データから直接得られる情報は、
誰にでも共通に導き出せる既知なる情報 (+_+)
であるため優位性を導くには知られ過ぎている情報です。これでは真に優位
性ある情報は得られません。そこで、
時系列データを加工して時系列データから離れた視点 (ノ゚ο゚)ノ
を作り出す必要があるのです。本来は、意味をもって時系列データから離れ
る必要がありますが、そこに到達するには初心者の方には難しいため、徐々
にレベルアップするために意味が有る無し関わらず様々な視点からの加工
をして多くのヒストグラム化された情報を蓄えていきましょう。そうすれば、自ず
と次のステップへの道が開けてくるはずです。
というわけで今回は例題として下記の条件によるヒストグラムを採取してみます!
ⅰ) 24シリーズで扱った24カウント毎に終値を取得する24カウント終値ライン
ⅱ) 24バー移動平均線
の二通りによるヒストグラムを作成していきます。何のヒストグラムを採取する
かといいますと、
① 終値と24カウント終値ラインの差 (C-PLとする)
② 終値と24バー移動平均線の差 (C-24とする)
の二通りとします。その結果を下記に示します (^O^)/
ちょっと観察しますと「C-PL」は正の値の裾野部分まで値がありますねえ。
対して「C-24」は比較的中央に値が集まっています。ただ、ヒストグラムだ
と裾野部分が見難いということと、同じような形状だと判別し難いという不便
さがあります。そこで次の統計解析をセットにすることで統計解析の結果
を読み取り易くしていきます。
【数値的統計解析】
数値的統計解析とは数値として出力される統計解析を活用して統計解析
の解析結果を判別し易くしていくことです。出力する項目としては、
ⅰ) 最大値・最小値
ⅱ) サンプル数
ⅲ) 平均
ⅳ) 分散
ⅴ) 標準偏差
ⅵ) 尖度
ⅶ) 歪度
の7項目をお勧めします。ⅰ~ⅴまでは前回の内容でもお勧めしましたが、
分布への理解を含めると尖度と歪度を採取しておくと何かと便利です。ちな
みに尖度と歪度の詳細は下記記事を参照してくださいね (^-^)/
参考 : 尖度と歪度とは?
これらの数値を例題に対して採取してみましょう♪
尖度の値が正で大きいため中央に値が集まり裾野が短い可能性が示唆され
ています。しかし、歪度の値が正であり値が大きいため、正の側に値が寄って
いることも示されています。平均・標準偏差は「C-PL」の方が大きいため、
C-PLの方がバラツキが大きく、かつ正の値に採取したデータが寄っている φ(.. )
ということがわかります。これが何を意味するのかを理解できるようになるには、
統計解析の基礎を学ぶよりも様々なデータ解析をした方が理解が早くなります。
こうして加工されたデータに対してヒストグラムと数値的統計解析を行っていく
わけです。
【分布への入り口】
実はヒストグラムの作成の際に正規分布をベースとした判断ができるように細工
がしてあるのです。X軸の値がそうなのですが、
X軸は標準正規分布における標準偏差を表す
のですねえ。この処理は標準化、もしくは正規化と呼ばれる採取した統計結果を
標準正規分布の上に載せる技術です。この標準化はに関しては下記記事を参照
してください ('-^*)/
参考 : 標準化(正規化)について
ちなみに、今回扱った統計解析プロセスはExcelファイルとしてアップしておきます
ので実務的な流れをExcelファイルで把握してみてください。Excelファイルは下記
記事よりダウンロードページへ行くことができます。
記事で扱ったExcelの処理はExcelファイルダウンロードサービス内にて
ダウンロードできます
今回のファイル名 : 時系列データの加工例
※ ファイルのアップは2012年4月11日夕方あたりです
【まとめ】
まず意識して欲しいことは、統計解析の本来の役割はデータの特徴を表すという
ことです。そして勘違いし易いのは、時系列データの特徴を知ろうとしてしまうこと
です。統計解析本来の役割を最大限に生かすには、
時系列データを加工したデータに対して統計解析を行うこと (・∀・)
に他なりません。くどいようですが、考察する視点・角度を変えないと優位性など導く
ことは夢物語でしょう。そして、
加工されたデータの特徴を知ることが他分野にヒントを見出す
ことにつながります。これを必ず念頭に置いておくべきでしょう。どの分野も法則を
見つけるために様々な実験を行います。そして実験結果を統計的に解釈して法則
を推測します。その推測結果が数式化する場合もありますし、逆に数式から実験を
行い正しさを証明する場合もあります。
つまり、市場分析においても様々「実験=時系列データの加工」
を行わなければならないということです。そのために統計解析が存在するのですね!
今回はヒストグラムと数値的統計解析という基本を扱いましたが、これらから得られ
た結果は分布への照合をもって最終的に判断されます。
ということで次回は分布の解説です (^O^)/