最近気づいたけど
日頃の自分の言葉遣いや、行動を君はよく見て真似をするよね。
だから、汚い言葉や悪い行動をしないよう気をつけるよ(笑)
ご存知のかたもいらっしゃるかもしれませんが
少し前から、データサイエンティストと言う職種に
スポットがあたっているようです。
企業がためこんだデータを基に統計解析を行い、
経営判断に必要な分析を行う仕事のようですね。
いずれは、ロボット・人工知能によるデータ分析が主流になるでしょうが、
しばらくは、各企業内において蓄積したデータを
人間が吟味して選別・分析することで、
企業特有の情報資産になることかと思います。
本日は、統計学およびR言語について調べてみました。
統計学基礎 [ 日本統計学会 ]
¥2,376
楽天
■統計学メモ
「統計学は、経験的に得られたバラツキのあるデータから、
応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。」
(wikipediaより)
前例にこだわり過ぎる我々日本人には、
ぴったりな学問かもしれませんね(笑)
数学が得意な人はとっつきやすいかもしれません。
(私はかじった程度ですが(笑))
ここでは、簡単な備忘録メモとして、入門ワードをメモしておきます。
a.統計用語
_
y => y1, y2...ynの平均値(和の平均 = 算術平均(相加平均)、積の平均 = 幾何平均(相乗平均))
μ => 母集団の平均
σ^2 => 母集団の分散
Σ => 和の演算記号
Π => 積の演算記号
・偏差・・・平均から離れている程度を示す指標。R言語ではsd(x)。
・中央値R言語ではmedian(x)。
・分散・・・平均から離れている程度の量(絶対値)を示す指標。
・標準偏差・・・分散を平均と同じ単位で示す。分散の平方根。
・外れ値・・・例外値。標準化得点か箱ひげ図(株価の表示みたいなやつ?)により検討する。
b.分析手法
・相関・・・物事のかかわりの度合いを数値化して分析の判断材料に役立てる
・回帰分析・・・物事のかかわりの度合いを関数表現して分析・予測に役立てる
・決定木・・・判断基準と分岐を可視化して意思決定に役立てる
c.データ収集および分析のポイント
・個々のデータは「ベルヌーイ試行(コインの裏表が出る確率のように、排反事象による確率試行)」であるか、「独立」か、「条件付き確率」か。
・データ分布はどのようになっているか、外れ値はどの範囲が妥当か。
・分析対象の2軸に何を選定するか。その軸の切り口は意味のあるものか。なんのための分析か。
■R言語メリットメモ
http://www.r-project.org/
今回調べて感じたことは、
ビジネスで利用する実用的なプログラミング言語を
一つ選ぶとすれば、間違いなくR言語を私は選ぶということです。
R言語は統計学に基づいた処理や、分析図の描画を効率的に行えるような
機能一式が揃っているオープンソースのプログラミング言語です。

1.メリット
・トライ&エラーで容易に分析が行える
高水準のインタプリタ言語のため、試験的な実行・分析が即座に行えます。
また、学習コストが低いのでとっつきやすい言語になります。
・色んな分析やレポート作成が少ない記述で実現できる
分析したいデータのサンプルを抽出して、
加工したのち分析をすると思いますが、
R言語では、分析関数やグラフ描画関数が用意されているため、
従来の複雑なプログラムを組まずに、簡単にデータの分析が行えます。
2.デメリット
・統計学の知識が必要となる
ただし、データ分析を行うには、統計学の知識が必要なため、
私は、統計学とR言語をあわせてひとつのスキルセットとなると思っています。
ですので、多角的で効果的かつ有意義な分析を行うためには、
統計学の知識が必要となると感じています。
そこが、プログラマには少しハードルの高いところかもしれません。
※統計学は、心理学、教育学、経済学、社会学、数理科学、工学、医学、薬学
どの分野でも役に立つ学問ですので、専門スキルとして学習しても損はないと感じます。
そして、セブンイレブンの鈴木敏文氏も学生時代に学んだ統計学は、
「統計心理学」として役に立っていると言うほどですから、実用的なのでしょうね。
・通常の汎用プログラミング言語で実装可能な機能が少ない
メール送信とか、データベース、web, GUIのシステム構築は、
高水準の汎用プログラミング言語と比較して、ちょっと不便そうに感じます。
(まだあまり、使用していないので、誤りがありましたらご指摘ください。)
3.その他
Shinyというフレームワークがあるそうです。
以下から、技術的な内容になりますので、
興味のある方だけご覧ください。
■Kali LinuxへR言語開発環境構築
windows OS向けの環境構築はこちらになります。
1.R言語開発環境(R, Rscript)のインストール
インストール作業は管理者(root)権限で行います。
2.R言語向けIDE(画面で操作できる統合開発環境) RStudioのインストール
ブラウザで、以下URLへアクセスRStudio(gui)
「RStudio 0.98.1103 - Debian 6+/Ubuntu 10.04+ (32-bit)」のdebianパッケージをダウンロード。
※あるいはコマンドラインから以下コマンドでダウンロード
デスクトップ左上の「アプリケーション」メニューから
「プログラミング」→「RStudio」で起動できます。
■R言語を動かしてみる
[参考サイト]
R言語の備忘メモ
R-Tips
1.変数の代入と演算
RStudioで、1行ずつ実行して挙動を確認します。
データの型として特殊なものは、
ベクトル(配列とおなじ認識で良い?)、
行列、データフレーム、虚数でしょうか。
動かしてみると、結構楽しいです。
2.図の描画
では、よい統計解析ライフをお過ごしください!