Facebookを運営している米国企業Metaが7月23日付で新Chat AIを発表しました。
Llama3.1なるシリーズです。
その中で最高のスペックを有するLlama3.1-405BというモデルはGPT-4oの性能を超えるベンチマークの結果を示したとされています。
Llamaの最大の特徴はオープンソースであることです。
ChatGPT、Gemini、Claudeのようなクローズドモデルと異なりプログラムが公開されています。
無償で使用できるため、今後多くのサービスに使われていくことが期待されます。

 

さて、ここで気になるのが薬剤師国家試験に対応できるのか?というところです。
Llama3.1は残念ながら公式には日本語に対応していません。
しかし、日本語も学習には使用されているらしく、日本語の質問に日本語で答えてくれるところは他のAIと変わりません。
そこで、第109回薬剤師国家試験問題の中から図を使用していない薬理学必須問題、薬剤学必須問題、薬剤学理論問題の総計32題を抽出したいつもの問題セットを使ってLlama3.1-405Bモデルの性能を評価してみました。
なお、今回の実験ではこの32題の問題を一気にAIにコピペして回答を出力させました。
また、現在Metaの公式サイトでは日本国内からの使用ができないため、NVIDEAが公開しているLlama用のサービスを使いました。

 

では、結果です。

 第109回

  正答数(正答率)          
薬剤師国家試験問題 問題数

Llama3.1-405B

+ 深津式プロンプト

Llama3.1-405B

Claude3.5Sonnet

+ 深津式プロンプト

Claude3.5Sonnet

ChatGPT4o

+ 深津式プロンプト

ChatGPT4o

薬理学(必須問題) 14 13(93%) 13(93%) 14(100%) 14(100%) 14(100%) 14(100%)
薬剤学(必須問題) 9 7(78%) 7(78%) 9(100%) 9(100%) 8(89%) 8(89%)
薬剤学(理論問題) 9 4(44%) 4(44%) 7(78%) 4(44%) 9(100%) 8(89%)
総計 32 24(75%) 24(75%) 30(94%) 27(84%) 31(97%) 30(94%)

 

薬剤師国家試験に関する限り、LlamaはChatGPT4oやClaude3.5Sonnetには及ばないようです。
これは、公式には日本語対応していないのに無理矢理日本語で問題を入力した結果かもしれません。
深津式プロンプトも試してみましたが、他のAIと異なりLlamaでは全く性能が向上しませんでした。
Llamaへのプロンプト入力には独特の工夫が必要なのでしょう。

とりあえず、現状としてはChatGPT4o、Claude3.5Sonnet、Copilotの方が薬剤師国家試験の勉強には使えそうです。