ChatGPT(くすり×リテラシー2023年2月5日、2月8日、2月16日、2月20日、3月12日、3月26日、3月30日、4月5日、4月7日、4月14日、4月16日、4月23日、5月29日、6月27日)に医師国家試験を解かせてみたら、とうとう日本の国試にも合格したという論文が、JMIR Medical Education誌に6月29日に発表されました(JMIR Med Educ 2023;9:e48002.)。第一著者は島根大医学部の学生(!)とのことです(坂口公太Twitter2023年6月30日)。
以前の記事で紹介した(くすり×リテラシー2023年2月20日)プレプリント(medRxiv posted Apr 24, 2023. DOI:10.1101/2023.04.17.23288603)とは別のグループです。
ともあれ、今回の研究では、GPT-3.5およびGPT-4の2種類のAIに医師国家試験(2023年実施の第117回)を解かせてみました。必須の知識(essential knowledge)78問の正当割合はGPT-3.5:50.8%(95%CI 44.6-57.0)GPT-4:79.9%(75.0-84.9)、一般臨床(general clinical)105問はGPT-3.5:43.8%(34.2-53.5)、GPT-4:73.3%(64.7-81.9)、個々の疾患(specific disease)71問はGPT3.5:56.3%(44.5-68.2)、GPT-4は81.7%(72.5-90.9)で、総じてGPT-4のほうが好成績でした(Table1)。問題のレベルを易、普通、難と3種類で分けて検討した場合も、総じてGPT-4のほうが好成績でした(Table3)。
結論として、GPT-3.5は合格レベルに達しませんでしたが、GPT-4では合格レベルに達しました。GPT-4では英語以外(日本語)の処理能力も高まっているのが一因と著者らは考察しています(もっともどうやって能力を高めたかについてOpenAIは公開していませんが)。いずれにせよ、すごいことになってきました。