偽陽性率 | デジタル化(DX)のすべて

ROC曲線：予測モデル評価の鍵

機械学習の分野では、作った模型の良し悪しを測るための様々な方法があります。その中でも、ROC曲線（受信者動作特性曲線）は、二値分類問題、つまり「はい」か「いいえ」かを判断するような問題において、模型の性能を測る重要な道具です。この曲線は、グラフ上に描かれ、縦軸には真陽性率、横軸には偽陽性率が示されます。真陽性率とは、実際に「はい」であるものを正しく「はい」と判断できた割合のことです。病気の診断で例えるなら、実際に病気の人を正しく病気と診断できた割合です。一方、偽陽性率とは、実際には「いいえ」であるものを誤って「はい」と判断してしまった割合です。病気の例では、健康な人を誤って病気と診断してしまった割合です。ROC曲線を描くためには、「しきい値」と呼ばれる値を調整する必要があります。このしきい値は、模型が「はい」と判断する基準となる値です。しきい値が高い場合、模型は慎重になり「はい」と判断する基準が厳しくなります。つまり、偽陽性率は下がりますが、真陽性率も下がってしまう可能性があります。逆に、しきい値が低い場合、模型は大胆になり「はい」と判断しやすくなります。この場合、真陽性率は上がりますが、偽陽性率も上がってしまう可能性があります。ROC曲線は、このしきい値を様々に変化させたときの真陽性率と偽陽性率の関係を曲線で表したものです。理想的な模型は、真陽性率は高く、偽陽性率は低い、つまり、左上に寄った曲線を描きます。この曲線を見ることで、どのしきい値で模型が最も良い性能を発揮するかを判断することができ、目的に合わせて最適なしきい値を選ぶことができます。例えば、病気の診断では、見逃しを減らすためには感度を高める必要があるため、しきい値を低く設定する必要があるかもしれません。一方、偽陽性を減らすためには、しきい値を高く設定する必要があるかもしれません。ROC曲線は、このような判断を助ける視覚的な道具です。

2024.12.19

AI活用