ChatGPTはChat AI界の老舗ですので、その知名度は抜群です。
ChatGPTの無料版で動作するGPT3.5は極めて多数のユーザーを抱えていることでしょう。
学生のChatGPTユーザーのほとんどが無料版を使用していると考えられますので、GPT3.5の実力を知っておくことは重要です。
今までは、優秀の誉れ高いChatAI達を中心に吟味してきましたが、無料版ChatGPT3.5の実力はいかほどでしょうか?
そこで今回はChatGPT3.5を使用して薬剤師国家試験の正答率を計測してみました。
実験に使用した問題は第109回薬剤師国家試験の
薬理学(必須問題)
薬剤学(必須問題)
薬剤学(理論問題)
の中から図を使用していないものを選択しました。
いつも同じことを書いていますが、計測条件は重要ですので一応・・
ただし、今回は深津式プロンプトの有無で結果が異なるのかも比較してみました。
設定した「深津式プロンプト」はCopilotのときと同じです。
#命令書:
あなたは薬剤師国家試験の予備校における優秀な講師です。
以下の制約条件と入力文をもとに、最高の結果を出力して下さい。
#制約条件:
・薬剤師国家試験の問題をstep by stepで解説しながら正解を求めて下さい。
・必ず全ての選択肢について吟味してください。
・解答のために必ず<検索機能>を使用してください。
・選択肢毎に必ず<根拠となるurl>を提示してください。
・最終的な解答を明示して下さい。
#入力文:
問26 禁煙補助薬として用いられるニコチン性アセチルコリン受容体部分調整薬はどれか。1つ選べ。
1 シアナミド
2 ナロキソン
3 ニコチン
4 バレニクリン
5 フルマゼニル
#出力文:
それでは結果です。
第109回 |
正答数 (正答率) |
|||||||
薬剤師国家試験問題 | 問題数 |
ChatGPT3.5 with 深津式プロンプト |
ChatGPT3.5 | ChatGPT4 |
Gemini1.5 Pro |
Copilot with 深津式プロンプト |
Gemini Ultra |
Claude 3 Opus |
薬理学 (必須問題) |
14 | 10(71%) | 10(71%) | 13(93%) | 13(93%) | 13(93%) | 10(71%) | 11(79%) |
薬剤学 (必須問題) |
9 | 7(78%) | 5(56%) | 8(89%) | 8(89%) | 8(89%) | 6(67%) | 8(89%) |
薬剤学 (理論問題) |
9 | 4(44%) | 0(0%) | 5(56%) | 5(56%) | 6(67%) | 2(22%) | 3(33%) |
総計 | 32 | 21(66%) | 15(47%) | 26(81%) | 26(81%) | 27(84%) | 18(56%) | 22(69%) |
当たり前と言えば当たり前ですが、無料版のChatGPT3.5は有料版ChatGPT4と比較してかなり低い性能でした。
特に理論問題では正答率0%という、今まで試してきたChatAIの中で最も性能の低い結果を返しました。
無料版ChatGPTをそのまま国家試験の勉強に使用するのはかなりの冒険であると言えるでしょう。
同じ無料版でもCopilotやGemini1.5Proは有料版のChatGPT4に匹敵する精度をしめしましたので参考にしていただければと思います。
一方、深津式プロンプトを使用してChatGPT3.5に問題を入力した場合は、GPT4には及ばないもののかなり善戦していることがわかります。
理論問題が4問も解けるようになりました。
この成績は、Gemini UltraやClaude 3 Opusを凌いでいます。
深津式プロンプトに見られるような、言語モデルに文章を入力するときにより適切な回答を引き出すために入力文(プロンプト)を最適化する技術をプロンプトエンジニアリングと言います。
プロンプトエンジニアリングは近年登場した新しい学問分野です。
ChatAIで勉強する際には、適切なプロンプトになっているのかを意識して使用することによってAIの能力を引き上げることができそうです。