Ames/QSAR国際チャレンジプロジェクトで使用されている評価指標の中で、インバランスなデータであるAmes試験結果の予測値の評価に適切なのはバランス精度、MCC、F1スコアの3種類であることを以前の記事で解説しました。
やたらとたくさんある評価指標の中で、これらの指標を使えばとりあえず予測モデルの性能を公平公正に評価できそうです。
しかし、これら3種類の指標によって格付けされるモデルの順位は必ずしも一致するとは限りません。
そこで、コンペの結果をよりシンプルに評価できるように、バランス精度、MCC、F1スコアをさらに統合的に解釈してみたいと思います。
3種類の指標の統合は、標準化して平均を取ったり順位の総計を計算したりすることによって実現できますが、それではこの3種類の重みを同等であると仮定することになります。
ここでは、モデルの性能に対する複数の指標の方向性を吟味することによって、より合理的な統合的指標の構築を目指します。
使用する手法は主成分分析です。
主成分分析は、多数のデータを圧縮することによって類似した性質を低次元空間に定量的に抽出することができる統計手法です。
主成分分析では、主成分の組み合わせによってスコアプロットとローディングベクトルを描画することができます。
スコアプロットとローディングベクトルの組み合わせをバイプロットと呼ぶことがあります。
バランス精度、MCC、F1スコアの主成分分析からバイプロットを描画すると、次のようになりました。
これら3種類の評価指標のベクトルはいずれも右方向、すなわち第一主成分が正の方向に向いていることがわかります。
そして、これらの情報は第一主成分に極めて強く圧縮されていることが読み取れます。
この結果は、3つの指標が類似した性質、すなわち予測モデルの総合的な性能を示していると考えることが出来ます。
すなわち、第一主成分はこれらの指標を統合した評価指標になると考えられます。
このような解析から、あらたな統合的評価指標として第一主成分(1st Principal Component: PC1)を設定することにしました。
バランス精度、MCC、F1スコアに加えてこのPC1も評価すれば、もし先の3つの指標で白黒が付かない結果が出たとしても、シンプルかつ合理的にモデルの順位付けを達成することができます。
なお、以前より問題視している、予測モデルの回答に使った化合物の割合であるカバー率は今回の主成分分析の変数に採用していません。
なぜなら、カバー率はモデルの性能を左右する重要な要因ではあるものの、モデルの構築とは異なる技術によって設定されていると考えられるからです。
しかし、カバー率と各評価指標との相関は極めて興味深いテーマです。
次回はカバー率がAmes予測モデルの性能にどのような影響を及ぼしているのかを解析するために、前回吟味した正規分布化カバー率を用いてバランス精度、MCC、F1スコア、およびPC1との相関を観察してみます。