昨日6月21日にアメリカのAnthropic社はClaude AIの最新バージョンであるClaude 3.5 Sonnetをリリースしました。
Claude 3.5 Sonnetは無料で使用できます。
先日は有料版のClaude 3 Opusの薬剤師国家試験正答率を評価しましたが、Claude 3.5 Sonnetは無料であるにもかかわらず、この有料版よりも高性能になっているとのことです。
何のための有料版なのか分からないような事態ですが、きっとそのうちさらに高性能なClaude 3.5 Opusが使えるようになるのでしょう。
さて、このClaude 3.5 Sonnetは現状で最高性能だと考えられるChatGPT4o(omni)と同等かそれ以上のベンチマークの結果を示したとされています。
そこで、また例の第109回薬剤師国家試験問題セットでその性能をChatGPT4oと比較してみました。
なお、この国家試験問題と解答は、厚生労働省が電子データとしてインターネット上に公表されてからしばらく経過しています。
すでにネット上には様々な解説記事が認められますので、AIはこれらを検索機能によって参照することができます。
一ヶ月前に測定したChatGPT4oの正答率を比較対象にするのは不公平かも知れませんので、前回不正解となった設問は再測定することとしました。
では、結果です。
第109回 |
正答数(正答率) | ||||
薬剤師国家試験問題 | 問題数 |
Claude3.5Sonnet + 深津式プロンプト |
Claude3.5Sonnet |
ChatGPT4o + 深津式プロンプト |
ChatGPT4o |
薬理学(必須問題) | 14 | 14(100%) | 14(100%) | 14(100%) | 14(100%) |
薬剤学(必須問題) | 9 | 9(100%) | 9(100%) | 8(89%) | 8(89%) |
薬剤学(理論問題) | 9 | 7(78%) | 4(44%) | 9(100%) | 8(89%) |
総計 | 32 | 30(94%) | 27(84%) | 31(97%) | 30(94%) |
なんとClaude3.5 Sonnetは必須問題を全て正答してしまいました!
これは今までどのAIでも達成されなかった好成績です。
一方、理論問題は44%とChatGPT4oと比較すると今ひとつでしたが、深津式プロンプトを使用することによって78%と大幅に改善しました。
深津式プロンプトは本来GPT用に設計されていますので、Claudeには最適化されていません。
しかし、このように大幅な改善が達成されました。
Claudeに適したプロンプトを工夫することによって成績はさらに向上するかも知れません。
ところで、ChatGPT4oの方も今回再測定したわけですが、深津式プロンプト使用によってなんと理論問題の正答率が100%になってしまいました!
これは大言語モデルの性能とともにネット検索機能の結果でもあると考えられます。
学生にとっては正答とそれを導く解説が重要ですので、無料でこの性能はかなり有用なはずです。
なお、これらのAIは解説も吐き出してくれますが、その詳細は吟味しておりません。
正答であっても解説には明白な誤謬が含まれている例もありましたので、どんなに正答率が高くても注意深く確認しながら使用する態度が肝要です。