三流ポスドクの就活日記 -4ページ目

学術界と芸能界の自殺

アメンバー限定記事です

限定記事を読む

アメンバー限定記事を読むには

転職活動終了

面接が終わり、内定を無事いただきました。良かった。

物凄く急に物事が進んだためバタバタしてました。

幅広く30社くらいアプライして内定は3社(一次で辞退が3社ほど)となりました。

全部メーカー系AIエンジニア/データサイエンティストなポジションです。

かくいう私自身はそこまでAIの開発をしていたわけではないのでものづくりと研究の実績の方を買われた印象です。

データサイエンティストは過去のブログで散々文句を言っていますが「データアナリスト」系データサイエンティストは書類通過0。

元々実験系ですのでIT系は「実力不足」と思われた印象が強く書類通過は３社くらい。

メーカー系データサイエンティストも場所によっては実力不足と言われたりしました。

やはり能力と実績とのマッチングの問題なんだなあという実感でした。

結果30戦3勝2敗４辞退ですね。打率１割ですか。

まあIT行ってもすぐ辞めてたと思うんですけどね笑

後学のために色々と反省です。

1. マッチング

これはポスドクのスキルがドンピシャでマッチすることはありませんので笑、幅広く当たることをお勧めします。

また能力の一致があったとしても、雰囲気や職種への反感がある所はあると思います。

例えばデータサイエンティストでよく出てくる顧客データの解析。

ぶっちゃけ「そんな再現性のないデータを使ってよくサイエンスと言ってるよな」という印象ですので

やってもいいんですが、あまり興味が沸かなかったりしました笑

例えばバイオインフォマティクスが得意だと言っても「PubMedを使うだけの人」と「アルゴリズムを知ってる人」、「塩基配列の特定をしてた人」、「タンパク質構造を調べてた人」などなどでスキルと需要が変わってくるわけです。

私は「なんでもやってみる」タイプでしたので、多少のことは勉強したのですが世間の８割くらいの人は「自分のスキルセット」のこだわりがあって少しでも離れると異物扱いされてしまうのはポスドクを通じて知りました笑

それぞれの分野で生かせるスキルセットがありますのでそこをアピールするのが大事かと思います。

例えば企業の研究でも「使うだけの人」集団が形成されてたりしますのでその中に「アルゴリズムも知っている人」がいっても「ミスマッチ」として扱われます。

とは言っても「アルゴリズムも知っている人」は必ず必要なので何処かには需要があります(大体そういうところに人がたりてない笑)。ですので腐らず、情報を集めて探し当てるのが大事かと思います。

人にもよると思いますが、せっかく働くのであれば「しょうがないから雇ってやる」というところよりは「ぜひ一緒に働こう」と行ってくれる人のところに行きたいですよね笑

2.会社の場所

採用の人に言われたのは「地方に行きたがらない人が多い」ということでした。

やはり皆さん地元志向が強いので関東の人は関西に行きたがらなかったりするそうです笑

その分、世界どこでもOKなポスドクスタイルは意外と重宝されます。

特に事業所の大半は片田舎や地方にありますので苦にならなければ道は開くと思います。

3. エージェントの使用

エージェントによって相性も紹介される案件も異なりますので、色々なネット情報にもあるように複数当たってみるのが良いと思いますが、一方で色々当りすぎると連絡や調整が若干めんどくさくなります。

もし「この分野に行きたい」ということがわかっているのであれば一つのエージェント会社に特化するのが良いかと。

初めての転職ですのでエージェントを使いましたが、能力があれば直接応募でも問題ないかと思います。

職務履歴書は学振や科研費の書類書き、面接は(盛り上がる)学会発表とさほど変わらないです。

要は相手に自分のことをきちんと伝える能力がきちんとあれば問題ないと思います。

博士課程一般で言われるプレゼン能力ですが当然低い方(分野)もいらっしゃいます。

あまりコミュニケーションが重要視されない分野の人は話が長かったりむずかしかったりで独りよがりな人が多いなあという印象があってマイナスイメージになります。

そういう自覚がある方はきちんと練習してもらえるエージェントを探しましょう。

ちなみにとある面接の私の評価が"ポスドクっぽくない"でした笑

結論としてはポスドクもマッチすればなんとかなるということで自身の人生をかけた試みは終わったわけですが、

しばらくはブログも更新していこうと思います。

データサイエンスの将来

なんとかいくつか書類通過し、いくつか面接です。

データサイエンティストって最初期のデータサイエンティストは本物のサイエンティストがやっていたようなんですが今はコンサルのような分析屋さんがデータサイエンティストを名乗っているのが多い印象です。ですのでデータシステムを構築するわけでも、データ処理をするわけでもないひとの方が多く、大手になるとすでに「下々のものが処理してくれたものをただ解釈する」人という感じ。

これは結構天文学の研究スタイルに似ていて、こうやって文化の分断って起きるんだろうなとふと思いました。

そして、その結果どうなるかも想像できるので紹介しましょうか。

天文では「理論、観測、装置」に分かれています。昔は自分で望遠鏡を作って理論の検証をしたのだと思いますが、装置がだんだんと個人では買えない額になり、理論もスパコンを使わないと計算できない規模になったため、分業化が進みました。そして共同で大きな望遠鏡(すばる望遠鏡とか)を設立し観測時間を取り合うというスタイルに変化していきました。これがここ20-30年の話。

ここ10年ではさらに装置が高額化し国からの予算も減ったため、みんなで使えるデータをとりあえず取っておいて後から好きなように解析をした方が良いということになってプロジェクトを設立するようになりました。

で今どうなっているかというと装置を作る人がいなくなりました笑

科学の解析をするまでには装置作成を含めてものすごくたくさんのチェックが必要です。

装置作成に時間がかかるし、データの品質チェックやデータ処理システムなど結構忙しい。

そこに関わらない理論家たちは十分な時間をかけて新しい観測対象の研究をしている。

一方で天文学者としての評価は"論文"で評価するままです。

すると観測する人よりも理論を作ったり検証する人が偉いように見えてきます。

そして「理論の方が優秀である」みたいな風潮をつくってしまったがために装置を作っているのは「優秀でない」という"偏見"を作り、若者は装置作成に行きたがらなくなりました。

また、行ったとしても学者としての評価に繋がらないので、装置を作った若手は皆逃げるようになりました。

残った人は"優秀だから残ったわけではない"ので"できの悪い"人ばかりが残るようになりました。

一方で、装置も装置で「俺たちがいないと仕事できないくせに」みたいな僻みが入るようになりました。

こうやって分断が起きてコミュニケーションが減っていきます。

人が減った装置開発では開発自体もうまく回らなくなりますし効率も良くない。

装置のことをよく知らない、理論屋さんは無茶な要求ばかりしてくる。

これを繰り返した結果深い分断が起きてしまい、プロジェクト自体が崩壊していくと。

結果、自前でデータを作れなくなっていきました笑

で国内でデータを作り出せなくなってどうしているかというと海外の大型望遠鏡のデータをもらえるよう交渉している状況です。ただし、これも条件付きで”日本の持っているデータ"とバーターだと。ある種の身売りですね。

売るものが無くなったらどうするんだろう？と思うんですが基本的に大部分の研究者は目の前のことが最優先ですので基本的には”焼畑農業”スタイルです。

トップデータサイエンティストさんのブログにも書いてありますね。

https://tjo.hatenablog.com/entry/2020/07/27/170000

前者はそもそも中身が空っぽで作り逃げばかりが故にsustainabilityもゼロ、言い方は悪いですが焼畑農業みたいなものです。この程度なら、確かにpandasとsklearnが使えれば誰でもできるでしょうが、どんなに長くとも1年ぐらいもたせるのがやっとでしょう。百歩譲って頑張って完成させても、メンテがきちんとされないので1年後にはお払い箱というパターンです。これでは安定した売り上げも収入も得られませんし、大抵の場合は給料も安いです*22。一方後者はただのチートで、そんな現場があったら僕も行きたいぐらいですが、そういう現場に限って先任者がそのままDS業務の既得権益層になっていて、そのお仲間や取り巻きでポジションが占められていたりします。しかもそういうところほど研究開発も盛んで、うっかりすると「日本やUSのトップスクールの機械学習or応用統計学専攻の大学院出身者以外お断り」みたいなところもあります*23。トップ会議に論文が出ていなければ書類落ちでしょう。その代わり給料は巷で喧伝されるのと同じくらいには高いです*24。

私の知っている天文学と全く同じ雰囲気です。

データエンジニアとかデータベース開発エンジニアにはあまり焦点が当たらずマーケティングのデータ分析などがもてはやされているというところも似ています。

さてさて、そう思うとデータ分析周りも天文と同様のことが起きる様な気がします。

天文はデータは最終的にパブリックにするという文化がありまして今の天文学者の半分くらいは過去にとられたデータを再解析していたりしてます。

とは言っても当然"作った人が偉い"のは当たり前でしてある意味おいしいところを取り尽くして"出涸らし"になったデータがパブリックになるわけです。

そこでの発見は一応ありますが、インパクトはそこまでなくなってしまう。

データ分析まわりでもデータの民主化などと言っていますが結局は"利用し尽くした"データをもらうだけなので

ニッチなサービスや微々たる業務改善は生まれるかもしれませんが、基本は大手に食い尽くされるでしょう。

まあ製造業やIT系は自社データがたくさんあるのでさほど困らないかと思いますが、

コンサル系データサイエンティストは多かれ少なかれ分析できるデータがなくなっていくと思います。

メーカーも最近はどんどんとデータ分析人材を雇用していますので、最終的に調べるデータがなくなっていくというところに落ち着くんじゃないでしょうか。

結局"データ資産"の多いところが強いと笑

実験でも概してデータ作るところが大変なわけです。

今はIoTでデータがたくさん出てくるようになってはいますが、

無駄データが多くても仕方ないし、今後はよりシステム化していくと思います。

そこらのデータにはすでに価値がなくなるので、逆に新しい"データ資産"を作る仕組みを作っていくのが今後重要なのかなーと思いました。

東大の大学債

東大が何やら大学債を発行するようです。

格付けはわりといいみたいですが大学って何で利益を得ていくんでしょうね？

少々気になったので大学の財務状況を調べてみました。

https://www.u-tokyo.ac.jp/content/400144824.pdf

主な収入源は運営交付金、付属病院収入、受託研究等収益でざっくり1：1：１。

で主な出費は人件費がメインで1000億円(すごい)

ざっくり東大の構成員は10000人くらい。実は結構な大企業なんですね。

特定有期雇用は外部資金な人たちだと思うと8000人。人件費一人当たり1200万くらい。

https://www.u-tokyo.ac.jp/ja/about/overview/b02_03.html

半分以上は事務員なので、もらってる人は結構もらってるんですね。。。

ちなみに総長の報酬は1500万だったりします。。。

で残りは物件費だそうな(つまりは研究に使った費用みたいなものですね)。

https://www.city.suzu.lg.jp/kikakuzaisei/saishutuseisitubetu.html

教育にかかる費用などは研究:教育が1:1と思うと

外部資金~研究費となるのでまあそんなもんなのかなと思います。

(詳細はここhttps://www.u-tokyo.ac.jp/content/400144825.pdf)

経費削減で0.2億円というちんけなものなので

経費を減らすのであれば、物件費を減らすか、人件費を減らすかしかない。

研究や教育の費用を減らすわけにもいかないので人件費を減らすしかない。

みなし公務員なので給料は基本的に変えられない。

ということは人数を減らすしかない。実際に人員削減は大学では結構聞く話です。

収益を上げるのであれば

授業料を増やす、附属病院の収益を増やす、外部資金を増やすですか。

授業料を増やしてもいい気はするんだけどなあ。東大なんて親の平均年収千万なんだし。

寄附金はちょっとずつは増えているので営業努力をしているんでしょう。

施設費を取るのは一つの手なんですが、大学にそんな立派な装置ないですしね。。。

うん、こうみると確かにニッチもさっちもいかないですね。

資産運用自体はやっているようですので、まあ大学債発行も致し方ない気もします。

もし、私が総長ならば

1. 配置換えして人数を減らす。

この人研究してるの？的な人もいらっしゃいますしすでに”終わった分野”の研究をしている人もいる。

研究は"研究室の個性"も重要ですので、他大学と差別化できていないような分野は切るなどスマート化していく。

また、大学の雰囲気として教育に対してネガティブな人が多すぎな気がします笑

教育だけポストを非難したり、教育メインの先生を馬鹿にしたり。

適材適所もあるのでそういう人がいてもいいのではとは思ったりします。

2. 給料体系の改定

大学職員の給料は年功序列です。ある意味日本で最も保守的な組織の一つです。

https://note.com/syokuin_sd/n/n66bbc040a6e3

中小大学はすでに成果報酬を導入しているみたいです。

https://news.livedoor.com/article/detail/16943374/

先生方は"成果は一律に測れない"と文句をいうと思いますが、民間ではそれを頑張ってやってるわけですよね。

往々にして感じるのですが、人間安定するとチャレンジしなくなります。

そこにハッパをかけるにもお給料くらいは成果主義にすべきでしょう。

3.人事制度の改革

大学人事は教授会が握っているところがほとんどです。昔の共産主義の名残ですね。

まあこれについてはいいところ悪いところがあると思うのですが、大学の意思は重要かと思います。「この研究もういらないんじゃない？」みたいなものを残してしまったり、業界の潮流もありますので人事選考に大学側が突っ込んでいくのもいいのではないかと。

この"教授会=自治組織"のせいで雑用が増える原因にもなってるんですよね。予算執行に教授会の賛成が必要なのでトイレの水漏れ修理にも教授会で議論しないといけないとか笑

4. 授業料の値上げ＋奨学金の設立&緩和

今の国立の授業料は大体年五十万円。倍以上とってもいいと思います。

その代わり地方出身など生活面で苦しい人の授業料免除を緩和してバランスを図る。

こういう話はほぼ必ず「教育の機会均等」が云々という話になりますが、

そもそも大半の教授はまともに教育なんでしてないでしょ笑

大体の「雑務で忙しい」=「研究以外の仕事が多い」ということでして

「書類書き、試験監督、授業準備、採点、教授会、ミーティング、なんとか委員、なんとか委員、なんとか委員、、、」ですね。

私は書類書きやミーティングも研究のうちだと思っていますので何が問題なのかとは思います。

まあそのほかにも色々やっているみたいですけどね。

https://togetter.com/li/811821

というわけで結局は人数削減しかないですし、それが最も合理的な気がします。

それすなわちポスドクがより厳しい立場におかれるわけですね。。。

ポスドクを社会に送り出す仕組みを大学側がどんどん作っていった方がいい気がしますね。。。

AIや統計は地動説を発見できるか？

物理の人が統計や人工知能の本を読んで戸惑うことの一つが「モデル」と言う言葉です。

物理の世界でモデルと言う場合には「物事を単純化して機能を抽出した物」「構成可能な部分集合に分けること」と言う意味で使われます。

https://ja.wikipedia.org/wiki/数理モデル

統計モデルや人工知能におけるモデルは「表現された物」や「学習の結果出てきた関数」のことをモデルと言っている感じがします。

https://qiita.com/ueniki/items/6338f8de53ee65637b32

プラモデルの様な「現実に再現する物」と言うニュアンスで使われます。

ボールペンのモデルと言われたときに

物理の人は「10cmくらいの棒」を思い浮かべるのに対し

AI周辺の人は「CADで書いたボールペン」みたいなイメージを持つわけですね。

物理では「単純化、抽象化」に対して統計モデルは「具体化、詳細化」と全く逆のことをモデルと言っているのでとてもややこしい。

物理の観点から言うとパーセプトロンは「人間の脳細胞のモデル化」ですし、CNNは「人間の認識の仕方のモデル化」なんですが、AI周辺のひとからするとただの「計算手法」や「アルゴリズム」として見ている印象です。

こう言うのが異文化交流を難しくするんだろうなと笑。

さてさて本題。

天動説、地動説も太陽とか惑星とかの"データ"を元にした説なんですがどちらでもある程度の精度で太陽や惑星の動きを予測できるんです。ではAIや統計モデルはデータを見て地動説を導けるか？

AIはパターンを検知することが得意ですので太陽や惑星の動きを忠実に再現させることができると思います。

ではその太陽の動きを追うことでAIは地動説を理解していると言えるのでしょうか？

ふとそんなことを思いついたのですが、似た様なことを15さいの少年も言っております。

https://ledge.ai/sip-2019-tanmaybakshi/

そしてAIで地動説を発見したと言う論文もありますね笑

https://arxiv.org/pdf/1807.10300.pdf

論文を読んでみると「説明可能なAI」を目指した研究の簡単な系として「なんか作ったよ」系論文ですね。

地動説があっているか確認した形跡もないのでこれで発見とは言えないのでは？という感じですね。

何を教えたのかもとっても怪しいのでこれちゃんとサイエンスの観点から実証するだけで論文になりそうです笑

追記:学習データは観測された星の位置で、outputは角度の関係式(linear)ですね。星の運動を円運動すると仮定していますのでこれ”完全に”間違っています。言い方は悪いですが”見つけて当たり前”です

なぜならば地動説での惑星は月のように円運動上を円運動しているのでそもそもの問題の設定が違ってます。

天動説や地動説はこの場合は物理の意味でのモデルですので「そもそも統計モデルやAIはそのモデルに興味はない」で終わりなのですが、wikipediaを読んでいると現在のAIの状況に似ていて非常に興味ぶかく感じました。

https://ja.wikipedia.org/wiki/地動説

彼らが欲していたのは理論書ではなく、表にある数値をあてはめて計算すれば惑星や月齢が計算できるより簡便な星表であった。当時は占星術が気象予測や医療において実用的に大きな意味を持っており、過去・現在・未来の惑星の位置を分単位で計算する必要があったためである。惑星の位置を決定するための表は太陽中心体系の方が簡単であり、コペルニクスの体系は便利な虚構として利用された^[1]。

でそのアウトプットがこちら。

https://ja.wikipedia.org/wiki/アルフォンソ天文表

ビジネスにおけるデータサイエンスの利用もまさにこんな感じですね。

AIやデータサイエンスでも太陽の動きを予測することは可能です。

しかしそれらは「背景の仕組み」は置いておいて、現実に当てはまりの良い経験則を作成することをしています。

つまり太陽->水金地火木で並んでいて、楕円軌道を描いているとは考えることはできず、ただただ「星はこの様に動く」と言う現象を記述するだけです。つまりデータだけあっても地動説か天動説かを区別することはできない。

地動説がなければそれに関連したケプラーの法則や万有引力の法則も関連づかないし発見されないでしょう。

ビジネスの世界での使われ方なので「合目的的」であってユーザーのニーズに応えられているので

それを作った過程がどうであれ関係ないと言う態度でAIを使っていくのはまあ正しいと思います。

そう言う意味では"天動説"を使い続けていったコペルニクス前の天文学者と同じ態度なわけですね。

そういう方向の利用が続くのは仕方がないとは言え、その背後の理解を進めていかないとビジネスの世界の「地動説」や「万有引力の法則」は生まれてこない気がしてきます。

そう考えていくとデータサイエンスを使ったビジネスは多かれ少なかれどん詰まりを迎えていく気がしています。

ちなみにマックスウェーバーによると資本主義の原動力とも言われるプロテスタントの始祖マルティンルターは地動説に批判的だったそうです。

プロテスタントであったマルティン・ルターが批判したのは、カトリック教会そのものである。ルターが地動説を批判した理由は、単に地動説を唱えたコペルニクスがカトリック教会の司祭だったためである。またルターは総じて人文主義などの古典や自然学の研究には批判的であった。

ちなみにこんなことも書かれています。

地動説にすぐに賛同する天文学者があまり出なかったのは、コペルニクスの値の精度が悪く、天動説で計算したときと比べ、惑星の位置があまり正確に算出できなかったためである。その証拠に、ヨハネス・ケプラーがもっと精度のよい『ルドルフ星表』を出すと、瞬く間に全ヨーロッパの天文学者がこれを使いはじめた。

皆まで言うのは野暮なのでこれ以上は控えますが、色々と教訓が得られそうな感じがします。