Tox24 ChallengeというQSARのコンペティションが進行中です(12)。

Tox24チャレンジは、化合物のin vitro活性を予測するための計算手法の進歩を評価するために設計されています。
参加者に制限は設けられていません。
優勝モデルには1000ユーロの賞金が授与されるとのことです。

 

このコンペは次の4団体の協賛として開催されています。
・第33回人工ニューラルネットワーク国際会議(ICANN2024)
・革新的創薬のための先進的機械学習プロジェクト(AIDD)
・AiChemistプロジェクト
・ChemResTox誌

 

予測のターゲットはトランスサイレチン(TTR)に対するin vitro実験の測定値です。
本コンペでは、米国環境保護庁(EPA)が測定した1512種類の化学物質を使用しています。

これらの化学構造は、
・トレーニングセット(1012化合物)
・リーダーボードセット(200化合物)
・ブラインドセット(300化合物)
に分類され、全てのsmiles式が公開されています。

 

実測値に関しては、現時点でトレーニングセットのみが公表されています。

リーダーボードセットとブラインドセット500化合物の測定値は伏せられています。

 

現在、参加者はトレーニングセットから構築された予測モデルを使ってリーダーボードセットの予測値を計算し、Ochemに設けられた専用サイトに予測結果をアップロードしています。
アップロードされた予測値から予測精度が計算され、リアルタイムでリーダーボードに成績が反映される仕組みとなっています。
リーダーボードセット200化合物を用いた厳密な外部検証が行われるわけですので、この作業によって自分たちのモデルの性能が客観的に判定できます。

なお、リーダーボードセットの測定値は8月15日に公表される予定です。この時点でリーダーボードの評価も終了するとのことです。
ここから参加者はトレーニングセットと新たに公表されるリーダーボードセットの測定値に基づいてブラインドセットを予測するための最終モデルを構築することとなります。

ブラインドセットの予測結果提出の締め切りは8月31日です。
この予測結果の精度で優勝チームが決定されます。

 

以上、大雑把なTox24 Challengeの紹介でした。
私が主宰する明治薬科大学医療分子解析学研究室では、このコンペを機械学習とケモインフォマティクスの概念の習得に関する絶好のチャンスと捉え、チームを組んで取り組んできました。
チームのメンバーは教員と大学院生から構成されています(朝田、木村、岩下、駒坂、宍戸、中村、植沢)。
まだリーダーボードの検証段階ですが、下図に示すように我々のモデルは現時点で世界最高精度となっています。

モデルの詳細は、モデル構築において最も貢献している岩下君に今秋開催されるCBI学会2024年大会で発表してもらう予定です。