9月13日、ChatGPT有料版からOpenAI o1-previewが選択できるようになりました。
OpenAI o1は複雑な推論を実行するための新しいAIモデルという触れ込みで登場しました。
このモデルは特に数学やプログラミングにおいてGPT4oを遙かに凌ぐ性能を持っていることがベンチマークテストによって示されています。
博士課程の学生と同等のパフォーマンスを発揮するとか。
GPT4oよりも優秀というのはスゴいことです。
そこで、また例の第109回薬剤師国家試験問題セットでその性能を確認しようと思ったのですが・・・
実はこのOpenAI o1-previewには、一週間に30回の質問しかできないという大きな制限事項がありました。
一日ではなく一週間です。
ここでいつも使っている薬剤師国家試験問題セットは総計32問ですので、一問ずつ入力していたら一週間以上の時間がかかってしまいます。
仕方がありませんので、32問の問題を一気にコピペして一回の質問にしてみました。
この方式はChatAIの回答精度を大幅に下げてしまうことがありますので、続いて誤答のみを別スレッドに一問ずつ入力しました。
そして、その回答を用いて性能を確認することとしました。
その結果、正答率は100%となりました。
これはすなわち、OpenAI o1は一問ずつ入力するなら今回の試験問題を全て解く能力を持っていることを示しています。
今までの様々なChatAIを使用した試行では、深津式プロンプトを使って積極的にネット検索させても完全正答に至ったことは一度もありませんでした。
OpenAI o1-previewは今回の国家試験問題セットに対して過去最高のパフォーマンスを示すAIモデルであると言えそうです。
現行の問題点は、有料契約を交わしていても一週間に30回の質問しかできないという制限です。
残念ながらこの条件で国家試験の勉強に使うというのは現実的ではありません。
異様に早いAI業界の進歩が状況を改善してくれることに期待したいところです。