ChatGPT(くすり×リテラシー2023年2月5日2月8日2月16日2月20日3月12日3月26日3月30日4月5日4月7日4月14日4月16日4月23日5月29日6月27日)に医師国家試験を解かせてみたら、とうとう日本の国試にも合格したという論文が、JMIR Medical Education誌に6月29日に発表されました(JMIR Med Educ 2023;9:e48002.)。第一著者は島根大医学部の学生(!)とのことです(坂口公太Twitter2023年6月30日)。

 

以前の記事で紹介した(くすり×リテラシー2023年2月20日)プレプリント(medRxiv posted Apr 24, 2023. DOI:10.1101/2023.04.17.23288603)とは別のグループです。

 

ともあれ、今回の研究では、GPT-3.5およびGPT-4の2種類のAIに医師国家試験(2023年実施の第117回)を解かせてみました。必須の知識(essential knowledge)78問の正当割合はGPT-3.5:50.8%(95%CI 44.6-57.0)GPT-4:79.9%(75.0-84.9)、一般臨床(general clinical)105問はGPT-3.5:43.8%(34.2-53.5)、GPT-4:73.3%(64.7-81.9)、個々の疾患(specific disease)71問はGPT3.5:56.3%(44.5-68.2)、GPT-4は81.7%(72.5-90.9)で、総じてGPT-4のほうが好成績でした(Table1)。問題のレベルを易、普通、難と3種類で分けて検討した場合も、総じてGPT-4のほうが好成績でした(Table3)。

 

結論として、GPT-3.5は合格レベルに達しませんでしたが、GPT-4では合格レベルに達しました。GPT-4では英語以外(日本語)の処理能力も高まっているのが一因と著者らは考察しています(もっともどうやって能力を高めたかについてOpenAIは公開していませんが)。いずれにせよ、すごいことになってきました。