QSAR解析による識別予測性能を評価する指標は正確度(Accuracy)以外にもたくさんあります。
ここでは、比較的シンプルな評価指標を紹介します。
まずは復習です。
陽性・陰性を識別するモデルの結果は真陽性(True Positive:TP)、真陰性(True Negative:TN)、偽陽性(False Positive:FP)、偽陰性(False Negative:FN)の4パターンに分類できます。
予測値陽性 | 予測値陰性 | |
実測値陽性 | TP | FN |
実測値陰性 | FP | TN |
この4種類の化合物数から、感度、特異度、陽性的中率、陰性的中率を計算することができます。
指標 | 定義 | 計算式 | 焦点 | 別名 |
感度 (Sensitivity) | 実際の陽性ケースを正しく予測する割合 | TP / (TP + FN) | 偽陰性の最小化 |
真陽性率(True Positive Rate) 再現率(Recall) |
特異度 (Specificity) | 実際の陰性ケースを正しく予測する割合 | TN / (TN + FP) | 偽陽性の最小化 | 真陰性率(True Negative Rate) |
陽性的中率 (PPV) |
陽性と予測されたケースが実際に陽性である割合 | TP / (TP + FP) | ポジティブ予測の精度 |
適合率 (Precision) |
陰性適中率 (NPV) | 陰性と特定されたケースが実際に陰性である割合 | TN / (TN + FN) | ネガティブ予測の精度 | None |
ちなみに、これらにはいくつかの別名があって混乱しやすいので注意しましょう。
同じ分野でも異なった用語を使用することだって有ります。
特に、陽性的中率の別名であるPrecisionはそのまま日本語訳すると「精度」となり、この日本語を使用することも少なくありません。
ところが、前回述べたAccuracyも辞書的な日本語訳では精度となりますのでさらに混乱します。
ここでは、Accuracyは正確度、Precisionは適合率と呼ぶことにしておきます。
さて、上記の4種類の評価指標は0から1までの統計量です。
もし仮に陽性と陰性の実測値が50%ずつのサンプルがあったとすると、全く当てずっぽうにランダムに予測結果を返す予測モデルの評価結果は全て0.5になります。
では、不均衡データの場合はどうなるでしょうか?
1000化合物の内10化合物の実測値が陽性、残りの990化合物の実測値が陰性だった場合を考えてみましょう。
陽性化合物が1%しか含まれていない非常に不均衡なデータです。
予測モデルが完全にランダムな答えを返すとすると・・・
TP(True Positives): 約5サンプル
TN(True Negatives): 約495サンプル
FP(False Positives): 約495サンプル
FN(False Negatives): 約5サンプル
となりますので、各指標の計算式に当てはめて計算してみると、
感度 (Sensitivity): 0.5
特異度 (Specificity): 0.5
陽性的中率 (Positive Predictive Value, PPV): 0.01
陰性的中率 (Negative Predictive Value, NPV): 0.99
ついでに前回紹介した正確度も計算してみましょう。
正確度 (Accuracy): 0.5
陽性的中率(PPV、適合率、Precision)は陽性と予測された化合物の中での正解の割合ですので非常に小さな値となります。
陰性的中率(NPV)はその逆ですね。
これらは不均衡データの影響によって評価基準が変化する指標だということを念頭に置いておく必要がありそうです。
(Ames/QSAR国際チャレンジプロジェクトの陽性・陰性の割合は15%対85%ですので、不均衡であると言えます。)