QSAR識別モデルに使用される評価指標には、先に述べた感度、特異度、陽性的中率、陰性的中率、正確度以外にも、これらの持つ欠点を克服するために考え出されたものがいくつかあります。
その中で、Ames/QSAR国際チャレンジプロジェクトで採用された指標を中心に解説していきます。
前回、感度と特異度について書きましたが、実はこの二つはしばしばトレードオフの関係にあります。
すなわち、QSAR解析で識別モデルを作るときに感度を高くしようとすると特異度が低くなり、逆に特異度を上げようとすると感度が犠牲になる、といった関係性があります。
また混同行列を見てみましょう。
予測値陽性 | 予測値陰性 | |
実測値陽性 | TP | FN |
実測値陰性 | FP | TN |
感度の計算式は
感度=TP / (TP + FN)
ですので、感度を向上させるにはTP=1、FN=0にすれば良いことになります。
これを達成するには、全てのサンプルが陽性だと予測してしまえば良いことになります。
予測値の陽性が100%、陰性が0%であれば実測値には関係なくTP=1、FN=0になることが分かると思います。
もちろん、このような予測をするようなモデルでは実測値を当てることはできませんが、感度は1になります。
では、このときの特異度はどうなるでしょうか。
特異度の計算式は
特異度=TN / (TN + FP)
ですので、全てのサンプルを陽性だと答えるようなモデルですと、TN=0になってしまいます。
なにも予測せずに全部陽性だと答えるようなモデルでは、感度が1、特異度が0になることが分かりました。
何も予測せずに全部陰性だと答えれば、感度と特異度の結果は逆転します。
トレードオフになっています。
このように、感度と特異度の片方に注目して予測モデルの感度を評価しようとすると、一見いくらでも良いモデルが構築できるように見えてしまいます。
よって、感度と特異度は常にいっしょに観察する必要があることになります。
そこで、感度と特異度の平均値を取ることにしてみましょう。
この平均値のことをバランス精度(Balanced Accuracy: BA)と呼びます。
バランス精度の計算式は
BA=(感度+特異度)/2
={TP/(TP+FN)+TN/(FP+TN)}/2
となります。
バランス精度は感度、特異度に偏ることなく、さらに不均衡データでも適切な性能評価ができる優れた評価指標となります。
次に、感度と陽性的中率の関係を見てみましょう。
これらは真陽性サンプルの割合となっています。
感度は
感度=TP / (TP + FN)
ですから、「実測された陽性サンプルの中で正しく陽性と予測できた割合」と表現できます。
感度は偽陰性(FN)によって敏感に変動します。
一方、陽性的中率は
陽性的中率=TP / (TP + FP)
ですから、「モデルが陽性と予測したサンプルの中で本当に陽性だった割合」です。
陽性的中率は偽陽性(FP)によって敏感に変動します。
このように、感度と陽性的中率は陽性例を異なった側面から評価しており、互いに影響し合います。
高感度であれば、すべての被験物質を網羅的に同定でき、毒性化合物を見逃すリスクを低減できます。
一方、高陽性的中率であれば同定された毒性化合物が真に有毒であることが保証されます。
毒性のQSARモデリングでは、感度と陽性的中率のバランスが非常に重要です。
また、例えばモデルがより多くのケースを陽性と予測する(つまり、陽性判定を積極的に行う)場合、より多くの実際の陽性例を捕捉できるために感度は向上する可能性があります。
しかし、同時に偽陽性が増えるために陽性的中率は低下する可能性があります。
逆に、モデルがより慎重に陽性予測する場合、陽性的中率は向上しますが、感度は低下する可能性があります。
このため、陽性的中率と感度のバランスを取るために、F1スコアが使用されます。
F1スコアは、陽性的中率と感度の調和平均です。
調和平均には、両方の値が高い場合にのみ高い値を示し、片方の値が極端に低い場合は全体のスコアを大きく下げる傾向があります。
なお、陽性的中率と感度のバランスの話をするときは、感度をRecall、陽性的中率をPrecisionと表現することが多い様です。
F1スコアの計算式は次の通りです。
F1=2*(Recall*Precision)/(Recall+Precision)
=2*(TP^2)/{2*(TP^2)+TP*FP+TP*FN}
F1スコアは、Ames試験の予測のような陽性クラスの予測精度と再現率をバランス良く保つことが重要な場合に適しています。
ちなみに、このF1スコアは第1回のAmes/QSAR国際チャレンジでは採用されておらず、第2回ではじめて導入されました。
最後に、マシューズの相関係数(Matthews Correlation Coefficient:MCC)を紹介します。
MCCは2×2のクロス表におけるカイ二乗統計量に関連する指標です。
MCCは次の式で表されます。
MCC=(TP * TN – FP * FN) / √{(TP + FP) * (TP + FN) * (TN + FP) * (TN + FN))}
MCCは、TP、TN、FP、FNを含む混同行列の4つのカテゴリのバランス比率を考慮に入れているため、より多くの情報量が統合されています。
ピアソンの相関係数と同じように-1から1までを取る統計量であり、不均衡データでも合理性の高い評価値を与えることができます。