今回はMicrosoft社のCopilot(旧Bing AI)に関する検討結果をお示しします。
前回までのブログ記事ではChatGPT4、Gemini Ultra、Claude3 Opusといった有料版のChat AIの国家試験回答精度についての実験結果をお伝えしました。
しかし、私が授業を担当しているいくつかのクラスに訊いてみた結果、どうやら有料版のAIを契約している学生というのは皆無に近いことが分かりました。
現在これらのAI有料版は月々約3000円ほどの価格設定になっていますので、学生にとってはちょっとキビしいのかもしれません。
そこで、Copilotです。
Microsoft社のCopilotは、無料なのにChatGPT有料版と同じGPT4の結果を返してくれる素晴らしいサービスです。
Copilot無料版はChatGPT有料版と違ってGPTsやTeamなどのサービスが使用できず、質問の回数も1トピック30回と制限されていますので深い検討には限界があります。
しかし、学生の勉強には充分に有用である可能性があります。
そこで、Copilotを使用して、前々回と同様に薬剤師国家試験の問題を解かせてみました。
使用した問題は、前々回と同様に第109回薬剤師国家試験の
薬理学(必須問題)
薬剤学(必須問題)
薬剤学(理論問題)
の中から図を使用していないものを選択しました。
なお、今回使用したCopilotは、会話スタイルを「より創造的に」に設定しました。
また、GPTの回答精度を向上させるとされている「深津式プロンプト」を採用してみました。
設定した「深津式プロンプト」は次の様な感じです。
#命令書:
あなたは薬剤師国家試験の予備校における優秀な講師です。
以下の制約条件と入力文をもとに、最高の結果を出力して下さい。
#制約条件:
・薬剤師国家試験の問題をstep by stepで解説しながら正解を求めて下さい。
・必ず全ての選択肢について吟味してください。
・解答のために必ず<検索機能>を使用してください。
・選択肢毎に必ず<根拠となるurl>を提示してください。
・最終的な解答を明示して下さい。
#入力文:
問26 禁煙補助薬として用いられるニコチン性アセチルコリン受容体部分調整薬はどれか。1つ選べ。
1 シアナミド
2 ナロキソン
3 ニコチン
4 バレニクリン
5 フルマゼニル
#出力文:
それでは、結果です。前々回調査した他のAIと並べて表記します。
第109回 | 正答数(正答率) | ||||
薬剤師国家試験問題 | 問題数 |
Copilot with 深津式プロンプト |
ChatGPT-4 | Gemini Ultra | Claude 3 Opus |
薬理学(必須問題) | 14 | 13(93%) | 13(93%) | 10(71%) | 11(79%) |
薬剤学(必須問題) | 9 | 8(89%) | 8(89%) | 6(67%) | 8(89%) |
薬剤学(理論問題) | 9 | 6(67%) | 5(56%) | 2(22%) | 3(33%) |
総計 | 32 | 27(84%) | 26(81%) | 18(56%) | 22(69%) |
なんと、Copilotは有料版ChatGPTよりも好成績になってしまいました!
Copilotの良いところは根拠となるリンクを細かく付けてくれるところです。
ただし、リンク先の内容が正しく回答に反映されていないことも多々あるので注意が必要ですが。
その後さらに試行錯誤したのですが・・・
・深津式プロンプトはちゃんと機能していそうでした。
・問題は一気に入力するよりも一回に一題入力して解答させる方が精度が上がります。たぶん、選択肢をバラして一つずつ投げるとさらに精度が向上するのではないかと思われます。
・どうやら会話スタイルを「バランス良く」に設定すると回答速度が上がり精度が下がるようです。
・同じ問題に対して同じ作業をしても当たったり外れたりと一定しませんでした。
(これは全てのChatAIに言えます。同じ質問を複数回実施して集計することによって安定した結果を得る、といった技術が使用されることもあります。)
・精度は時間帯によっても変動するかもしれません。
Copilotも他のChatAIと同様にまだまだ不安定なサービスだという印象です。
人工知能の言ったことを鵜呑みにするような学生にとっては、誤った知識を植え付けられる可能性がある危険な相棒に変貌しますので、くれぐれも注意して付き合うことが肝要です。
しかし、吐き出された回答の真偽を注意深く吟味しながら使用すれば、かなり良い勉強用のツールになるのではないかと思われます。