ChatGPTさん、スマホで７並べを作ろうとしたらAI理論(Q-Learning)が出てきた話

■はじめに

前回「７並べを作りたい」と宣言したプロンプト・ウサギ。するとChatGPTさんから、思わぬ一言。

> 「７並べって、実は将棋のミニ版みたいにアルゴリズムが複雑ですよ」

……うそでしょ!?🐰💦

でも「口から出たことは守る主義」なので、逃げずに実装をキメました。

まぁ、実際に作るのはChatGPTさんなんですけどね（笑）

■どうせならスマホで動かしたい

せっかくならスマホでも動かしたい。

ということで、GoogleColab上で動作する７並べアプリをChatGPTさんにお願いしました。

開発の流れはこんな感じ👇

【構成】

・対人（４人）

　→ ユーザー×CPU（３人）

【戦略】

・出せるカードをランダムに出す

・パスは３回まで。３回パスでリタイア

・「少し賢い」戦略では、出せるカードのうち７に近いカードを優先！

GoogleColabにコードを貼って実行するだけで、ちゃんと動くのがすごい。

スマホでも確認できて便利でした。

流石に勝ち確定かな?

■さらに手強くします

やっぱり７並べと言えば“ブロック戦略”。

そこでChatGPTさんに提案してもらったのがこちら👇

【新戦略】

・ブロック

・手札の推定

ここまでやると、まぁまぁ強い。

試したい方は、後でGitHubのリンクを貼っておきますね。

リンク🔗

sevens/sevens.py at main · logicmaker256-prog/sevensContribute to logicmaker256-prog/sevens development by creating an account on GitHub.

github.com

■おまけ：AI理論（Q-Learning）登場！

いつもならここで「CPUが強すぎた」で終わるんですが、微妙な強さです。

どうしようかなと思ってたら、ChatGPTさんが急に言いました。

> 「AI化、してみます？」

……え、そんなことできるの？😳

ということで「Q-Learning」を使ったAIモードを追加してみました。

【仕様概要】

・プレイヤー：AI vs AI

　ここで、すでに格好良すぎかな？

　イメージは下に示します。

・カードは７からつながる数字のみ出せる

・出せるカードがない場合は「パス」

・先に手札を出し切った方が勝ち！

・AIはQ-Learningで

　「どのカードを出すのが良いか」を学習

・Q値はGoogleDriveに保存される

■ところで、Q-Learningって何？

Google先生いわく：

> 「Q-Learningとは、エージェントが環境と相互作用しながら、

状態と行動の組み合わせ（Q値）を学習して、

将来の報酬を最大化するような最適行動を見つける強化学習アルゴリズムです」

……つまり、AIっぽいってことですね（ざっくり）😅

実際やってみたところ、

「表形式Q学習」でQ値を記録しようとしたものの、７並べの状態が複雑すぎて全然収束せず。

実際のグラフがコチラになります。

この様に収束する感じがありません。

ChatGPTさんからは次の提案がありました。

> 「じゃあDQN（Deep Q-Network）にしてみましょうか？」

調べてみると、

> 「DQNはQ値をニューラルネットワークで近似して、

連続的な行動にも対応できるようにした仕組みです」

……つまりQ-Learningの“すごい版”ってことですな（さらにざっくり）

ただ今回はGPT-5さんが時間切れ💦

続きは次回へ！

■まとめ

今回、７並べを実装してみたところ、

普通に遊べるゲームが完成しました！

でもAIを入れた瞬間に世界が変わりましたね。

「強化学習」「Q値」「DQN」……完全にAIの扉を開けてしまった感。

まぁ、AIを“触った感”が得られたので大満足です🐰✨

次は――

**AIが本気で勝ちにくる７並べ（DQN版）**を目指して頑張ります！