記事一覧

Chat-GPTが第117回医師国試で合格点

株式会社MICINは4月25日、金沢大学医学類の学生および同大融合研究域融合科学系の野村章洋准教授らの研究グループと共に実施した研究に関する成果を報告する論文をオンラインで公開したことを発表した(詳細については論文を参照)。

 この研究は、2023年2月に実施された第117回医師国家試験の画像なし問題262問を、昨今注目を集める生成AIによる対話型サービス「Chat-GPT」のGPT-3.5およびGPT-4に解かせるという内容だ。

 その結果、Chat-GPT(GPT-4)は必修問題(合格最低ラインは80.0%)で82.7%、基礎・臨床問題(合格最低ラインは74.6%)で77.2%のスコアを獲得し、合格最低ラインを満たした。

 研究グループは第117回医師国家試験の問題を解かせる前に、まずは第116回医師国試の画像なし問題を用いて入力プロンプト(Chat-GPTから解答を得るための指示文)を検討し、GPT-3.5を用いた第116回医師国試の当初の検証では52.8%という正答率を得た。

 その後、プロンプトを平易な英語に翻訳した上で要約をすることや、基礎・臨床といった質問タイプごとにプロンプトをチューニングするといった調整を行うことで、正答率が向上した。

 こうした調整を経て、第117回医師国家試験の問題を解かせた結果、262問中206問で正解した。必修問題と基礎・臨床問題ともに、合格最低ラインを満たした。

 研究グループは不正解となった56問について、なぜ不正解となったのか要因を分析している。その結果、不正解となった56問のうち33問(58.9%)では「医学知識の不足」が、17問(30.4%)では「日本特有の医療制度情報」が、4問(7.1%)では「数学的誤り」が要因となっていたことが分かった。

 論文において研究グループは「医学の文脈において時代遅れ、決定的に間違っている解答もあった」としたほか、「医療保険分野における日本の薬事法、厚労省の指導、ガイドライン、公衆衛生に関する問題についてChat-GPTは適切に答えることができなかった」としている。