Ames/QSAR国際チャレンジでは予測モデルの性能を多角的に評価しています。
今回は、この「評価指標」の導入部分について述べていきます。

 

このコンペでは、各チームが構築した識別モデルでAmes試験の陽性・陰性を予測しています。
ブラインドテストセット化合物の予測というのは難しいですので、当たったり外れたりします。
つまり、予測の結果は次のような4パターンに分類されます。

  予測値陽性 予測値陰性
実測値陽性 TP FN
実測値陰性 FP TN

予測結果が陽性で、答えも陽性:このパターンを真陽性(True Positive:TP)と言います。当たってます。
予測結果が陰性で、答えも陰性:このパターンを真陰性(True Negative:TN)と言います。これも当たってます。
予測結果が陽性で、答えは陰性:このパターンを偽陽性(False Positive:FP)と言います。外れてます。
予測結果が陰性で、答えは陽性:このパターンを偽陰性(False Negative:FN)と言います。外れてます。

 

 

要するに、正解である真陽性と真陰性の化合物の数(TP + TN)が多ければ予測モデルの性能が良かった、と言えそうです。
テストに使われた全ての化合物数に対する正解の数の割合を正確度(Accuracy: Acc)と言い、性能評価の重要な指標になっています。
正確度は次のようなわかりやすい式で定義されます。

 

Acc=(TP+TN)/(TP+TN+FP+FN)

 

正確度はとてもわかりやすいので様々なところで予測モデルの評価基準に使用されています。
でも実はこの評価指標の使用には注意が必要な場合があります。
それは、予測する化合物における陽性と陰性の割合が極端に偏っているときです。
このようなサンプルを不均衡(imbalance)なサンプルなどと呼びます。

例えば、陽性化合物が1000個中に10個しか含まれていない極端にインバランスな化合物セットが有ったとします。
予測モデルが予測を全くしないで、どんな化合物に対してもとりあえず全部陰性、と判定するような出来損ないだったとしても、

 

TP=0
TN=990
FP=10
FN=0

 

となって、

 

Acc=(0+990)/1000=99%

という、あたかも正確度が良好な予測性能を備えたモデルができたと勘違いしてしまいます。

もちろんこの結論は誤りであって、陽性の10化合物をできるだけ正しく予測できなければ良い予測モデルとは言えません

 

実際のAmes試験の結果はここまで極端ではありませんが、やはり不均衡です。
Ames/QSAR国際チャレンジのデータですと、15%くらいが陽性、85%くらいが陰性です。
とりあえず全部陰性と答えるダメなモデルを提出したとしても、正確度85%のかなり良い部類のモデルが構築できたことになってしまいます。

このように、正確度は直感的にわかりやすくて便利な評価指標なのですが、不均衡なデータに適用する際には他の様々な評価指標と組み合わせないと誤った結論を導いてしまうために注意が必要です。

識別モデルの様々な評価指標は基本的にTP、TN、FP、FNの4つの化合物数から計算されるのですが、なかなか奥深いものがあります。