第1回および第2回Ames/QSAR国際チャレンジプロジェクトに提出された全109モデルを精査した結果、全テスト化合物を予測した(カバー率100%)と仮定したときの最良の予測モデルは、明治薬科大学のMMI-STK1であると推定されました

統合的評価指標(PC1)の順に上位モデルを再掲すると、
1位:明治薬科大学のMMI-STK1
2位:明治薬科大学のMMI-VOTE1
3位:明治薬科大学のMMI-STK2
4位:明治薬科大学のMMI-VOTE2
5位:MultiCASE社のBM PHARMA
6位:Lharsa社のDerec Nexus
となります。
今回はこれらの予測モデルがどんなものなのかを、主催者の報告論文から抜粋してお示しします。

 

1位のMMI-STK1(明治薬科大学)は、第2回チャレンジで私たち(黒崎、佐々木、松坂、植沢)が提出した統計ベースの予測モデルです。
私たちは後述するMMI-STK2とMMI-VOTE2を評価用モデルとして選択しましたので、このモデルは論文の本文には登場していません。サプリメントデータの中にモデルの概要と評価値が記載されています。

MMI-STK1の構築に使用したトレーニングデータは主催者が配布した第1回チャレンジにおけるPhase1,2,3のデータのみです。そのほかの外部データは一切使用していません。
これらの分子構造から化学構造記述子を算出して機械学習に供しました。
記述子の算定に使用したアプリケーションは、Dragon、MOE、Mordredです。
また、機械学習器には決定木系のLight GBM、XG-BoostとともにGraph Convolutional Networkを使用しています。
これらの機械学習器をスタッキングすることによって最終結果を出力しました。

 

2位のMMI-VOTE1(明治薬科大学)も、第2回チャレンジで私たちが提出した統計ベースの予測モデルです。やはり、論文本文では登場していません。
このモデルのトレーニングセットも主催者が配布した第1回チャレンジにおけるPhase1,2,3のデータのみです。
このモデルは、Dragon、MOE、Mordredからなる多様な記述子とLight GBM、XG-Boost、Deep Learning、Graph Convolutional Networkといった多様な機械学習器を用いて99種類のスタッキングモデルを構築し、最終結果を多数決によって決定しています。

 

3位のMMI-STK2(明治薬科大学)も、第2回チャレンジで私たちが提出した統計ベースの予測モデルです。このモデルは論文本文中に登場し、最良の3モデルの1つと評価されています。
このモデルのトレーニングセットには、主催者が配布した第1回チャレンジにおけるPhase1,2,3のデータに加えて、既知のAmes試験の結果をまとめた「Hansenのデータ」という有名なデータセットを使用しています。
記述子の算定に使用したアプリケーションは、DragonとMOEです。
また、機械学習器にはLight GBM、Deep Learning、Graph Convolutional Networkを使用しています。
これらの機械学習器をスタッキングすることによって最終結果を出力しました。

 

4位のMMI-VOTE2(明治薬科大学)も第2回チャレンジで私たちが提出した統計ベースの予測モデルです。
このモデルのトレーニングセットもMMI-STK2と同様に主催者が配布した第1回チャレンジにおけるPhase1,2,3のデータに加えて、Hansenのデータセットを使用しています。
このモデルには、DragonとMOEから計算された記述子とともに、DNA断片とのドッキングシミュレーションによる親和性スコアを説明変数に加えています。
機械学習器にはLight GBM、Deep Learnig、Random Forest、Graph Convolutional Networkを使用し、最終結果を多数決によって決定しています。

 

5位はMultiCASE社のBM PHARMA v1.5.2.0 (Statistical approach; SALM/ECOLI consensus)です。このモデルは第1回チャレンジのフェーズ2で提出されています。
このモデルはカバー率65.3%として提出され、その条件においてバランス精度、MCC、F1スコア、PC1において全て最高得点をたたき出しています。さすがはMultiCASE社ですが、カバー率を調整すると第5位ということになりました。

BM PHARMAはCASE Ultra statistical-basedというQSARに基づく毒性予測ソフトウェアから調整されたコンペ用特別仕様のモデルのようです。

CASE Ultraは、構造アラートの有無に基づいて毒性を予測しています。

アラートは機械学習でトレーニングデータから自動的に抽出されます。被験化学物質の毒性予測は、特定されたアラートとアラート周辺の構造的環境に依存します。

CASE Ultraの主なAmes変異原性モデルは、GT1_AT_ECOLI、GT1_A7B、PHARM_ECOLI、PHARM_SALMの4つのモジュールで構成されていますが、コンペでは特別に設計されたSalmonella/E Coliコンセンサスモデルを使用したとのことです。

構造アラートを使用していることから化学構造に対する説明性が高いシステムになっていそうです。

 

6位はLharsa社のDerec Nexus v.4.2.0です。このモデルも第1回チャレンジのフェーズ2で提出されています。

このモデルはカバー率100%として提出されています。

ちなみに第7位もLharsa社のDerec Nexus v.6.0.1(第2回チャレンジ)でした。

Lharsa社の安定したパフォーマンスをうかがい知ることができます。
Derekは、知識ベースのエキスパートルールベースシステムです。Derekに含まれる知識ベースは、構造アラート、例示化合物、代謝活性化やメカニズムに関する知識を暗黙的に考慮したルールで構成され、予測に使用しているとのことです。

ルールベースのシステムであるためトレーニングセットや適用領域は利用できないのですが、構造分類機能によって推論レベルがequivocal以上の化合物の場合はポジティブ予測として扱われました。

知識ベースで構造アラートを使用しているので、説明性が高いシステムになっていると考えられます。

 

以上の所感として、実際の毒性評価の現場で使用されているCASE UltraやDerec Nexusは説明性を維持するという制約の中で高度な予測を達成しているのが素晴らしいところだと考えられます。

一方、私たちの予測モデルは説明性を度外視して高い識別性能を目指したモデルだったと言えます。

まあ、コンペでしたのでそうなるのが当然なのですが・・・。

 

次に、真の予測性能が1位の明治薬科大学のMMI-STK1がカバー率を設定すると、どこまで性能が上がっていくのかを推定してみたいと思います。