今回はコンペのルールのお話です。
私たちは第2回Ames/QSAR国際チャレンジに参加したわけですが、そこでは次のようなルールで予測モデルの性能を競いました。
主催者は参加チームに次のファイルを提供しました。
トレーニングセット
・約12,000種類のトレーニングセット化合物の名前、smilesなどが入ったエクセルファイル
・トレーニングセット化合物の構造情報とAmesの実測値(陽性か陰性か)が格納されたSDファイル
ブラインドテストセット
・約1600種類の外部検証用化合物の名前、smiles、Ames予測結果(陽性か陰性か)を記載する欄からなるエクセルファイル
・外部検証用化合物の構造情報が格納されたSDファイル
トレーニングセット化合物というのは訓練化合物などとも言い、予測モデルを構築する際に使用します。
また、予測モデルの構築は化学構造のパターンとAmes試験の結果を紐付ける作業ですので、Ames試験の結果(答え)が必要です。
主催者から配られたトレーニングセットは第1回プロジェクトのときにブラインドテストセットとして使用された化合物とAmesの試験結果です。
これらは厚生労働省における労働安全衛生法(安衛法)に基づいて登録されたデータで、クラスAの強い変異原性化合物以外の試験結果は現在も公表されていません。
ちなみに、参加者は自分で外部のデータベースから自分のモデル構築用のトレーニングセットを用意することもできますし、主催者が用意した安衛法のデータを使用しなくてもOKというルールでした。
一方、ブラインドテストセットに関しては、主催者が答えを隠しておきます。
化学構造だけが参加者に開示されるということです。
ブラインドテストセットも安衛法に基づいて新規に登録されたAmes試験の結果が使用されています。
参加者はトレーニングセットから構築したモデルでブラインドテストセット化合物の陽性・陰性を予測して主催者側に提出します。
なお、1チーム毎に提出できる予測モデルの数に制限は設けられていませんでした。
ただし、これが最有力だという優先して評価してほしいモデルを一つだけ選ばなければならないというルールでした。
2020年7月1日にデータをもらい、2020年12月31日まで結果を提出する、というスケジュールでした。
主催者は、提出された解答の答え合わせをして、各チームが提出した予測モデルの性能を評価する、という流れです。
ただし、識別性能を評価するというのはいろいろな評価基準があって実はちょっと難しい作業です。