GPT-4が日本の医師国試合格

ChatGPT（くすり×リテラシー2023年2月5日、2月8日、2月16日、2月20日、3月12日、3月26日、3月30日、4月5日、4月7日、4月14日、4月16日、4月23日、5月29日、6月27日）に医師国家試験を解かせてみたら、とうとう日本の国試にも合格したという論文が、JMIR Medical Education誌に6月29日に発表されました（JMIR Med Educ 2023;9:e48002.）。第一著者は島根大医学部の学生（！）とのことです（坂口公太Twitter2023年6月30日）。

以前の記事で紹介した（くすり×リテラシー2023年2月20日）プレプリント（medRxiv posted Apr 24, 2023. DOI:10.1101/2023.04.17.23288603）とは別のグループです。

ともあれ、今回の研究では、GPT-3.5およびGPT-4の2種類のAIに医師国家試験（2023年実施の第117回）を解かせてみました。必須の知識（essential knowledge）78問の正当割合はGPT-3.5：50.8％（95％CI 44.6-57.0）GPT-4：79.9％（75.0-84.9）、一般臨床（general clinical）105問はGPT-3.5：43.8％（34.2-53.5）、GPT-4:73.3％（64.7-81.9）、個々の疾患（specific disease）71問はGPT3.5：56.3％（44.5-68.2）、GPT-4は81.7％（72.5-90.9）で、総じてGPT-4のほうが好成績でした（Table1）。問題のレベルを易、普通、難と3種類で分けて検討した場合も、総じてGPT-4のほうが好成績でした（Table3）。

結論として、GPT-3.5は合格レベルに達しませんでしたが、GPT-4では合格レベルに達しました。GPT-4では英語以外（日本語）の処理能力も高まっているのが一因と著者らは考察しています（もっともどうやって能力を高めたかについてOpenAIは公開していませんが）。いずれにせよ、すごいことになってきました。