理系大学院(データ分析)挑戦ブログ  -2ページ目

理系大学院(データ分析)挑戦ブログ 

アメリカで理系大学院に挑戦するブログです。

さて、今日の授業はですね

とても感動した話をお伝えします。

 

と言っても、感動させることを目的とした授業ではなくお涙頂戴のエピソードがあるわけでもありません。

 

Ethics(倫理)についての授業です。

 

そもその課題は「アトランタ(ジョージア工科大はアトランタにあります)の気候データを元に、夏が終わると判断できる日はいつかをCUSUM法で計算する」というものでした。

 

一見難しそうですが、理屈自体はこれまでの課題より簡単です。

 

数式すっ飛ばして考えると、「標準的な温度からどれだけ離れているか」を積算していき、積算値がある一定のレベルになった時点をもって変化を判定する手法です。

 

具体的にいえば、気温が35℃の日の翌日、27℃までさがったとします。

この場合には8℃下がるわけですから、結構な温度の変化です。ただ

このとき、「この日から気温が下がり始めた」とは判断しない場合があるのです。

たとえばまた次の日に35℃になった場合はどうでしょう。この場合はまだ涼しいシーズンにはいったとは判定できません。

 

しかし、その後また32℃、29℃、30℃、27℃みたいに上げ下げしながら徐々に下がっていった場合には温度下降のトレンドがあったと考えてさそうですよね!

 

この時、CUSUM法と言うのを使って数学的に、簡単に答えを出すことができます。

分析ツールもExcelで十分です。この色が青くなっていった部分が温度加工トレンドに入った時で、ここから夏がいつ終わったか、を判定するのです。面白いでしょう?

でも、感動したのはそこじゃないんですよ。

 

なぜならこの授業、実は決まった答えがありません。それは

「どの値を超えた場合に変わり目だと判定するのか」

「そもそもフツーの(標準的な)数字っていくつのこと?25℃?26℃?」

 

など、答えを一意にするための条件が与えられてないからなのです。

つまり、この試験は設定条件(具体的にはCとTというパラメータ)をいくつにするのか?で答えが全く変わります。

 

では、いったいこの試験はどのようにスコアを判定するのでしょうか?
ここがミソです。

答えを言ってしまいます。
実は、この試験は数字を答えさせるのが目的の問題ではないのです。
この問題は、「自分が作り出した分析モデルが示す正直にに答えているか」を実は見るためのいわば倫理テストなのです。

具体的にいいます。
たとえば、あなたが同じ試験に取り組んでいて、温度が下がり始めた日が8月30日の年と、10月20日だった年という分析モデルが出たとします。

その時、もしかしたら躊躇するかもしれません。

「50日も離れているのはおかしい」
「もっと近いのが日付が正解のはず」
「これは8月じゃなく、2番目に近い10月1日じゃないか、そのほうがしっくりくる」

こうなると分析モデルとは異なる、導きたい結論ありきで分析モデルを作ったり、または分析モデルとは全く違う答えを書いてしまうことになるかもしれません。


でもそれはときに倫理的にタブーです。
例えば、医療の検査で、患者さんが心配しているから、心配していない答えを導くための検査をしよう、なんてことになったら一大事です。病気のサインを見逃してしまうかもしれません。逆に病気ではないのに不要な治療を受けるかもしれません。

実はこのテストは

 

「強引に結論を導いていない」ということが正解の問題なのです!

 

ですから、分析モデルが合っていれば、たとえそれがどのように不自然に思える結論であっても、モデル通りに結論を書けば正解、そうでなければ不正解となります。

素晴らしくないですか?

いや、上述の倫理ってのは至極当たり前なのです。
ただ、これをシラバスとか倫理の授業ではなく、課題に取り組ませることで身に沁みてわからせる、という工夫が本当に素晴らしいのです。

なぜなら、この課題は「実は自分の好きなように結論動かせるよね?」と気づいてしまうからです。判定のための数字をゆるくすることもできますから。

 

一方「〜の設定でやったところ不自然な数字になったので考え直し、設定条件を合わせて一番しっくりする答えにしました。これが一番データとして自然に見えます」というのはよさそうなのにダメなのですね。

 

実はこの問題は倫理チュートリアルだったんですよ、と教授(MIT)もレビューの時点で明かします。

いやー憎い!