ChatGPTのようなAIが凄い勢いで進化を続けています。
OpenAIのChatGPTがGPTsやらGPT teamやらのサービスを打ち出してきたと思ったら、googleがBardの後継AIとしてGPT4を超えるマルチモーダルな機能を売りにするGemini Ultraを発表しました。と、思ったら、つい先日にはAnthropicがこれらのAIを超えるベンチマークを達成したとしてClaude 3 Opusを発表しました。
なかなか面白い時代になってきましたが、これらのChatAIたちは薬剤師国家試験の問題を解けるくらい賢いのでしょうか?
もしそうだとしたら、薬学の教育に大変革が生じてしかるべきです。
そこで、第109回の薬剤師国家試験問題の一部を解かせてみました。
第109回の国家試験は令和6年2月17、18日に実施されてからまだ一ヶ月経過していません。
厚生労働省も問題のテキストファイルを公表していないので、現時点ではネット上は比較的綺麗で、AIが参考にしてしまいそうなデータは見当たらなさそうです。
このタイミングで実験すればAIたちの素の実力が測れると考えられます。
使用した問題は、
薬理学(必須問題)
薬剤学(必須問題)
薬剤学(理論問題)
の中から図を使用していないものを選択しました。
本実験に使用したChat AIは現状最優秀とされている下記の3種類です。
ChatGPT-4
Gemini Ultra
Claude 3 Opus
ちなみに問題文のJPEG画像を用いた試行実験では、図の解釈や図中のテキスト抽出の精度においてClaude 3 Opusがダントツの精度を示しました。
OCRとしても実用的な精度でした。
一番おバカだったのはChatGPTで、ハルシネーションの嵐でした。
ただ、これはAIの言語モデルとしての性能とは違うようですので、今回はテキスト化した問題の解答に対する精度を評価することとしました。
同様の理由で、図が使用されている問題は除外して検討しました。
では、結果です。
第109回 |
正答数(正答率) | |||
薬剤師国家試験問題 | 問題数 | ChatGPT-4 | Gemini Ultra | Claude 3 Opus |
薬理学(必須問題) | 14 | 13(93%) | 10(71%) | 11(79%) |
薬剤学(必須問題) | 9 | 8(89%) | 6(67%) | 8(89%) |
薬剤学(理論問題) | 9 | 5(56%) | 2(22%) | 3(33%) |
総計 | 32 | 26(81%) | 18(56%) | 22(69%) |
結果は分野、難易度を問わずChatGPTが最も優秀でした。
特に必須問題の正答率は高いので、このレベルの問題であればできの悪い人間の友達よりも当てになるかも?
難しめの理論問題ではどのAIも手こずっています。
ChatGPTはその中でも善戦してはいますが、半分近く間違っていますし、人間と違って自信満々に嘘をつきますので現段階の活用には十分な注意が必要でしょう。
ネット上の信憑性の低い放言を鵜呑みにできないのと同様に、AIの言ったことを見極めるリテラシーが必要な時代になってきたようです。