第1回と第2回のAmes/QSAR国際チャレンジプロジェクトをまとめると、総計109種類の予測結果が提出されていることがわかりました。
第1回のプロジェクトではPhase1,2,3の3回に渡ってコンペが実施されました。
第2回のプロジェクトでは1回だけです。
併せて4回のコンペが行われたわけですが、これらで使用された評価用のブラインドテストセットには各回新規な約4000化合物(第2回では約1600化合物)が用いられました。
毎回異なる化合物セットで評価されている訳ですから、厳密には回を跨いで評価結果を比較して良いのかという問題がありますが、陽性陰性の比率がほぼ同等で十分な化合物数が使用されていると考えられることから、これらの評価結果は同等に比較できるものと仮定します。

ちなみにプロジェクトの報告論文の中でも異なったフェーズ、回の結果を比較していました。

 

というわけで、前置きが長くなりましたが通算成績第一位のモデルを発表します。

第一位は、バランス精度、MCC、F1スコアの全ての総合指標で最高値を獲得した
MultiCASE社のBM_PHARMA v1.5.2.0 (統計ベース)でした!
(バランス精度=78.9、MCC=0.5、F1スコア=57.9、カバー率=65.3)

BM_PHARMAの結果は第1回プロジェクトのフェーズ2で提出されました。

 

ダントツで文句なく一番なのですが、65%とかなり低いカバー率となっている点が気になるところです。

先に述べてきたとおり、この評価は「カバー率100%における真のモデルの予測性能」「予測適用領域(予測できる化合物)選択技術」の二つの要因からなっています。
予測できない化合物として35%の化合物を排除したらこんなに良い成績になりました、ということです。
このチーム(システム)の排除するべき化合物を見極める能力は素晴らしいと考えることができます。
たぶん、予測モデルの真の性能だって良いのでしょう。
ですが、カバー率100%のときの評価値が不明なので「真の性能」がわかりません

 

では次に、カバー率100%として提出された予測モデルだけで集計を行ってみます。
全109種の予測モデルの中で、33モデルがカバー率100%の結果を提出していました。

33種類の中でバランス精度が第一位のモデルは、
明治薬科大学のMMI-VOTE1でした!
(バランス精度=77.0、MCC=0.44、F1スコア=52.4、カバー率100%)
また、MCCとF1スコアが最良のモデル
明治薬科大学のMMI-STK1でした!
(バランス精度=76.9、MCC=0.44、F1スコア=52.8、カバー率100%)

これらの明治薬科大学のモデルは第2回プロジェクトで提出されました。

ちなみに、第2回チャレンジプロジェクトのなかではカバー率を低く設定したものを含めてもこの2モデルが最優秀でしたが、モデル作成者が評価されるモデルを選択するというルールのためにサプリメントデータとしてリンクされた表にのみ成績が載っていて論文本文には登場していません。

本ブログの最初に紹介した、論文中で最良モデルの一つとして評価されていた明治薬科大学モデルは上記とは別のものです。

 

というわけで、カバー率100%のカテゴリーでは私たち明治薬科大学のモデルが圧勝でした。
では、先ほどのMultiCASE社のBM_PHARMAと明治薬科大学モデルの「真の性能」はどちらが優れているのでしょうか?
この比較を実現するために、全てのモデルにおいてカバー率が100%のときの評価結果を解析的に推定してみましょう。

 

(これから述べる予定の解析内容はプレプリントサーバーに公開しています。)