AI紀行(25年3月)

###<2025/3/31>###################################

本日、36年間務めた会社で定年を迎えました。36年という長い年月を1つの会社で勤めあげたというのはまだ実感が湧かない。すごい長い年月だがあっという間だったような気もする。社長から感謝状の盾と会社から功労記章と部門から花束をもらった。こんな立派な花束をもらったことがなく妻から花瓶がないと言われ、とりあえずハワイの学会に行った時にもらったジョッキ風の土器に入れてみたらそれなりに様になった。部長課長からもお言葉をもらい会社の同僚にも感謝したいと思います。

###<2025/3/30:AI技術>###############################

HRAM(数理人材育成協会)に所属していて、”スピーチ動作の良し悪し判定モデル”の開発をしている。TEDサイトからダウンロードしたスピーチ動画に骨格座標検知Movenetを適用して取得した座標から4段階の動作レベルへ分類している。骨格座標を使用しなくても動画そのものを読み込んで分類できるか、モデルr3d_18(Resnet18の3D版)で試行してみた。入力データが6000動画もあり、クロスバリデーションをしているのでGPUを使用しても18時間もかかった。GPU様様ではあるが画像処理には恐ろしく時間がかかる。分類精度は80%程度である。

###<2025/3/26:AI技術>###############################

会社の業務改善でRAG関連のAI処理を開発している。部品メーカからの4M変更資料から(1)図表を抜き出し、(2)図表に対してLLMで4M変更点を説明させて、(3)図表と説明テキストパワーポイントに張り付けるというものです。(1)はAWSのDocument Intelligenceでもできるようだが、python言語ライブラリィのDocLayout_yoloを使用。(2)は(1)で生成されるjsonファイルから自動で抜き出しAPI経由で”gpt-4o”で作成。(3)もpythonプログラムで処理可能。ということで雛形は出来上がった。今後精度を上げていくのだが、入力データ収集と正解のあるべき姿を明確にする必要があると思う。また(2)でプロンプトを生成するRAG技術が重要かなと思う。

###<2025/3/20:AI技術>###############################

SIGNATEの雲画像の未来予測のコンペ(SOTA: 一度終了したコンペを学習用に公開)を実施中である。フォーラムのベースラインモデルを実施したところ、41.68(評価は画像の平均絶対誤差)で現在76位である。モデルをr3d_18(Resnetの3D版)へ変更して実施すると、42.85と少々悪くなったが同程度の性能である。予測精度を上げるのはモデルの問題ではないことが判ったので、予測手法やデータの分析を進めていく必要がありそうだ。また画像以外のデータの活用も必要かも知れない。

###<2025/3/18:AI技術>###############################

自動運転の10の要素技術が紹介されている。①AIが頭脳として車両の認知、判断、制御のロボテックス的な動きを制御するのだが、②認識、③予測、⑥プランニング、⑦サイバーセキュリティ、⑧HMI、⑨モニタリング等はAI技術が深く関わってくると考える。⑤の通信技術でクラウド上のLLM処理も今後トレンドになるのではないかと考える。例えば、ドライバモニタリングシステム等は、運転者の画像を用いてクラウド上のLLMで状態判断ができるようになるかも知れない。

###<2025/3/16:AI技術>###############################

ChatGPT o1モデルが東大数学の入試問題を解いて合格レベルに到達したとのこと。以前のモデルは数学の回答が不得意で計算ミス等(人間くささ)がありましたが、o1モデルでは論理的思考ができるようになりミスもなくなり、しかも回答速度が人の15倍以上であるとのことで、その実力は驚くべきものとなってきています。

o1 previewモデルは$20/月で使用可能なので、もはや東大生に家庭教師を頼む必要がなくChatGPTに教えてもらってどんどん賢くなるChatGPTネイティブの子供達が増えそうですね。

私も統計検定1級を受けようと思っているので教えてもらおうと思います。

###<2025/3/15:量子計算機>############################

紹介が遅れたが、1年半ほど前に量子計算機の本が出版された。

”古典力学から量子力学へそして量子計算へ”編著者：一色浩

※メルカリの電子書籍で発売中。

現在大規模言語モデル(LLM)全盛期の時代であり計算パワーの問題だけでなく消費電力が大きな課題である。GAFAが原子力発電の確保に動いているように、LLMを動かすためのGPUが莫大な電力を消費する。その解決策の一つが量子計算機である。

ただし量子力学は我々の住む古典力学の世界と異なる物理現象が起こるため理解が難しいと言われている。まずは古典力学をベースに量子の世界へ入るのが近道というのが本書の主張である。本著の7章”量子計算機実現の方式概要”は拙著ながら私が記載している。現時点では量子計算機の方式は古典計算機の真空管の時代のように黎明期であり、トランジスタの発明が待たれる時代でもある。各社がしのぎを削って誤り耐性が確保される量子計算機の実現を目指している。

###<2025/3/13:AI技術>###############################

JDLA主催のNeurIPS2024技術報告会のYoutubeを視聴。

LLMの応用、マルチモーダル化、エージェント化、データ高品質化等々。

最先端のAI分野の論文紹介だけに内容が難しいが、

技術トピックやトレンドをざっくり把握しておくだけでも意味があると思う。

林氏によると(下図)、画像生成で使用されてきたDiffusion Modelや強化学習がLLMへも使用されてきている点とか技術の融合が見られるとのこと。またモデル技術開発はある程度進んでおり現在は質の良いデータ作成に力が入れられているらしい。

###<2025/3/12：自動運転>############################

日産がセレナベースの自動運転車両の試験を横浜で実施している。

この車両には準天頂衛星(QZSS)のCLAS補強を使用した高精度ロケータが搭載されているはずだ。まずはこれがモデルケースとなり全国に拡まっていけばいいのだが。

----------------------------------------------------

運転席無人で自動走行　国内初の市街地実験　非常時は遠隔で操作

https://www.sankei.com/article/20250310-WYOSEXNN6BOFBMH2CIX4IEVZSQ/

###<2025/3/5:AI技術>###############################

同窓会写真の超解像化

2024年10月19日に高校の還暦同窓会が催された。

その時に集合写真を撮影したのだが、ホテルの撮影の方が、

「東高、がんばっていきまっしょい！」という掛け声を出してくれて、

何枚も写真を撮影し還暦の記念になるように頑張ってくれた。

※撮影担当の方も松山東高校の出身の方だった。

その集合写真が参加者に後日配布されたのだが、

少々拡大するとぼやけていてもったいないなと感じたので、

AI処理による超解像化(SR:Super-Resolution)を試みた。

使用したのはReal-ESRGANである。以下が、ちゃじった結果である。

----------------------------------------------------

モデル	ESRGANより優れた点	最適な用途

GFPGAN

人物の顔のディテールを自然に復元

ぼやけた顔写真や古い写真の復元

Real-ESRGAN

顔だけでなく背景や全体のディテールも向上

全体的な高精細化や一般的な超解像

CodeFormer

顔の修復精度が高く、ノイズ除去に強い

低解像度・劣化した顔写真の修復

----------------------------------------------------

実際に作成された画像は拡大してもぼやけることなく、

それなりにくっきりした人物の超解像画像が生成されました。

60代はAIに猜疑心を持っている方も多いので以下の説明をして、

Facebookの同窓生のグループで展開しました。

集合写真のSR版のダウンロード回数はそんなに多くないですね。

----------------------------------------------------

超解像技術は、衛星画像をくっきりさせて防衛や防災に使用したり、

レントゲン等の画像を高精細化して病気の早期発見に使用される技術です。

失われ個所を補完して画像を生成している部分もあり、

人がより自然にえるような画像が作成されているようです。

目元や輪郭がシャープに肌がなめらかになり50代前半に見えるかもです^o^。

最終的に15名程度の同窓生がこのSR版をダウンロードしてくれました。

よろこんでくれてる方もいて嬉しいです。