第1回および第2回のAmes/QSAR国際チャレンジの参加チームと提出されたモデルを全て集計してみました。

データソースは第1回プロジェクト論文第2回プロジェクト論文のサプリメントデータです。

(集計結果はここからダウンロードできます。また、これから述べる予定の解析内容をプレプリントとして公開しました。)

 

集計の結果、27チームがいずれかのコンペに参加していました。
そのうち12チームが第1回に参加したQSARベンダーで、残りの15チームが第2回のみに参加したチームでした。

(第1回のみ:6チーム、第2回のみ:15チーム、両方に参加:6チーム)
私たちは第2回にのみ参加しました。

論文によるとこれらのチームは第1回チャレンジでは7カ国から、第2回チャレンジでは11各国から参加したとのことです。

 

これらのチームは総計109種類もの予測モデルをこのコンペティションに提出していました。

(第1回:58モデル、第2回:51モデル)

なお、第1回の3フェーズでは各フェーズで同名のモデルもありましたが、個別のモデルとしてカウントしています。

 

コンペでは1回に約1600から2000種類程度のその都度新規なブラインドテストセット化合物を用いてモデルの性能が検証されました。
その際の評価には前回までに解説した評価指標である
正確度、感度、特異度、陽性的中率、陰性的中率、バランス精度、MCC、F1スコア(第2回から)
が適用されました。

前回詳述したように、これらの中にはAmes試験の結果のようにインバランスなデータの評価には注意を要するものや、単独で評価すると性能を過大・過小評価してしまう可能性のある評価指標が含まれています。
そこで、これからは総合的な評価指標である

バランス精度、MCC、F1スコア

に焦点を当てることにします。

なお、F1スコアは第1回プロジェクト論文の中では表示されていませんでしたので、各モデルにおける感度と陽性的中率の調和平均を計算して一律に評価しました。

 

さらに、与えられたテスト化合物のなかで予測に使用されたものの割合(カバー率)が与えられていました。
カバー率は100%であれば全ての化合物の予測値を算出して提出したことを意味しています。
一方、例えばカバー率36%であれば、テスト化合物のなかで確実にあたりそうな36%のみを使って予測値を提出したことを意味します。
評価指標はカバー率が低くても平等に(?)計算されますが、論文の中ではほとんどこのカバー率の影響については考察されていませんでした
あたりやすそうな化合物だけで結果を出せば、そりゃ良い結果になるだろう、と思うかも知れませんが、このあたりやすそうな化合物を正確に見つけ出すには高度な技術力が要求されます。
QSAR予測の分野では、このモデルを適用できる化合物が占める化学空間のことを適用領域(Applicability Domain)と呼びます。
適用領域の決定には多数の流儀があって発展途上の分野と言えます。

すなわち、このコンペでは、「モデルの性能」とは「モデル本来の精度」と「適用領域を決める技術」の2つの要因を含む概念である、と言えそうです。
これは、「化学構造による変異原性予測3:コンペティションの背景」で解説したOECDのQSARバリデーション原則における3と4に関連していると考えられます。

ですが、私としては「モデル本来の精度」と「適用領域を決める技術」は分離して評価した方がすっきりとするように思います。
そこで、次回以降はこれらの分離に関する解析について紹介していきます。