正解率とは何か？機械学習モデルの性能評価

AI活用

2024.12.18

正解率とは何か？機械学習モデルの性能評価

正解率とは何か？機械学習モデルの性能評価

デジタル化を知りたい

先生、『正解率』ってよく聞くんですけど、具体的にどういう意味ですか？

デジタル化研究家

そうだね。『正解率』は、簡単に言うと、機械がどれだけ正しく予測できたかを表す割合のことだよ。例えば、100枚の犬と猫の写真を見せて、どの写真が犬か猫か当てさせたとき、80枚正しく当てられたら、正解率は80%になるんだ。

デジタル化を知りたい

なるほど。じゃあ、正解率が高ければ高いほど、その機械の性能が良いってことですね？

デジタル化研究家

基本的にはそうだよ。ただし、場合によっては、正解率だけでは判断できないこともあるから、注意が必要なんだ。それは、また別の機会に説明しよう。

Accuracyとは。

統計学や機械学習で使われる「正解率」とは、簡単に言うと、どれくらい正しく予測できているかを表す指標です。例えば、猫か犬かを判断する問題で、たくさんの写真を見せてどちらかを当てさせる時、正解した写真の枚数を全体の写真の枚数で割ったものが正解率になります。これは、二択のような単純な問題だけでなく、もっと多くの種類を分類する場合にも使われます。

正解率の概要

機械学習の分野では、作った模型の良し悪しを測る物差しがいくつかあります。その中で、特に大切な物差しのひとつに正解率というものがあります。これは、模型がどれほど正確に予想できているかを示すものです。

たとえば、猫の絵を見分ける模型を作ったとしましょう。この模型に100枚の猫の絵を見せて、どれが猫かを当てさせます。もし80枚の絵を正しく猫だと当てられたら、この模型の正解率は80%になります。正解率は計算方法が単純で、模型の出来具合を一目で理解しやすいという利点があります。そのため、模型の性能を測る基本的な物差しとして広く使われています。

もう少し詳しく説明すると、正解率は「正しい答えの数」を「全体の答えの数」で割って、百分率で表します。先ほどの猫の絵の例では、正しい答えの数は80枚、全体の答えの数は100枚なので、80を100で割って0.8、百分率に直して80%となります。

ただし、正解率だけで模型の性能を全て判断できるわけではありません。例えば、めったに起こらない病気を見つける模型の場合を考えてみましょう。この病気にかかっている人は全体の0.1%しかいないとします。そんな模型が、全ての人に「病気ではない」と答えたとしても、正解率は99.9%になります。しかし、この模型は病気の人を一人も見つけることができていません。このように、データの偏りがある場合、正解率が高いだけでは模型の真の性能を測れないことがあります。そのため、状況に応じて他の物差しも合わせて使うことが大切です。

用語	説明	利点	欠点	具体例
正解率	機械学習モデルがどれくらい正確に予測できているかを示す指標。正しい予測数の割合を百分率で表す。	計算方法が単純。モデルの性能を一目で理解しやすい。広く使われている基本的な指標。	データの偏りがある場合、真の性能を測れないことがある。	猫の絵を識別するモデルで、100枚中80枚を正しく猫と識別した場合、正解率は80%。めったに起こらない病気を診断するモデルで、全ての人に「病気ではない」と回答した場合、正解率は99.9%だが、病気の人を一人も見つけることができない。

計算方法

良し悪しを測る物差し、つまり正解率の求め方は、とても簡単です。例を挙げながら説明しましょう。

たとえば、猫の画像を見分ける人工知能を作ったとします。この人工知能に100枚の画像を見せて、猫かどうかを判断させます。もし80枚の画像で正しく猫だと判断できたとしたら、この人工知能の正解率はどのように計算すれば良いでしょうか。

正解率は、全体の画像の枚数のうち正しく判断できた枚数の割合で表します。この場合、全体の枚数は100枚、正しく判断できた枚数は80枚なので、80枚を100枚で割ります。すると、0.8という数字が出てきます。これを百分率で表すと80%となり、これが正解率です。

式にすると、正解率＝正しく判断できた枚数 ÷ 全体の枚数となります。この計算方法は、猫か猫でないかのように、二択で判断する問題だけでなく、様々な種類を判別する問題にも使えます。たとえば、犬、猫、鳥の画像を判別する場合でも、同じように正解率を計算できます。

正解率が高いほど、その人工知能の性能が良いと言えます。しかし、正解率だけで人工知能の良し悪しを判断するのは危険です。例えば、猫の画像が90枚、犬の画像が10枚というデータで学習させた人工知能は、常に「猫」と答えるだけで90%の正解率を達成できてしまいます。このような場合は、他の評価方法も合わせて考える必要があります。

項目	説明
正解率の計算方法	正しく判断できた枚数 ÷ 全体の枚数
例：猫画像判別AI	100枚の画像でテスト 80枚正しく判定正解率：80枚 ÷ 100枚 = 0.8 = 80%
正解率の解釈	正解率が高いほどAIの性能が良い
注意点	正解率だけでAIの良し悪しを判断するのは危険（例：猫90枚、犬10枚のデータで学習させたAIは常に「猫」と答えるだけで90%の正解率）

活用事例

様々な分野で、機械学習の良し悪しを測る物差しとして「正解率」が使われています。これは、機械学習モデルがどれくらい正確に予測や判断を行えるかを示す割合です。例えば迷惑メールの振り分けを考えてみましょう。受信箱に届いたメールのうち、実際に迷惑メールだったものを正しく「迷惑メール」と判断できた割合が正解率です。この割合が高ければ高いほど、迷惑メールを正しく識別する能力が高いことを示し、より快適なメール利用につながります。

医療の分野でも、正解率は重要な役割を果たします。例えば、レントゲン写真から病気を診断するシステムを開発する場合、実際に病気だった患者さんのレントゲン写真を、システムが正しく「病気あり」と判断できた割合が正解率です。高い正解率を達成することで、医師の診断を支援し、より正確な診断に貢献します。

また、インターネット通販などでよく見かける、商品のおすすめ機能にも正解率が関わっています。この機能は、過去の購入履歴や閲覧履歴に基づいて、利用者が気に入りそうな商品を予測して表示します。実際に利用者が購入した商品を、システムが事前に「おすすめ」として表示できていた割合が正解率です。正解率が高ければ高いほど、利用者の好みに合った商品を的確におすすめできるため、購買意欲を高め、販売促進につながります。

このように、正解率は機械学習モデルの性能を評価する上で欠かせない指標であり、様々な分野で活用されています。ただし、正解率だけでモデルの性能を完全に評価できるわけではありません。状況によっては、正解率以外の指標も組み合わせて総合的に判断する必要があります。

分野	例	正解率の意味	効果
迷惑メール対策	迷惑メール振り分け	実際に迷惑メールだったものを正しく「迷惑メール」と判断できた割合	快適なメール利用
医療	レントゲン写真診断	実際に病気だった患者さんのレントゲン写真を、システムが正しく「病気あり」と判断できた割合	正確な診断
インターネット通販	商品おすすめ機能	実際に利用者が購入した商品を、システムが事前に「おすすめ」として表示できていた割合	購買意欲の向上、販売促進

注意点と限界

機械学習モデルの良し悪しを測る指標として、正解率は広く使われていますが、いくつか気を付けなければいけない点や限界があります。正解率だけを見て判断すると、思わぬ落とし穴にハマる可能性があるのです。

まず、学習に使ったデータに偏りがある場合、正解率はモデルの真の実力を正しく反映しないことがあります。例えば、病気の検査で99%の人が健康で、1%の人だけが病気だとします。このデータで、常に「健康」と予測するだけの単純なモデルを作ると、99%という高い正解率を達成します。しかし、このモデルは病気の人を一人も見つけることができません。つまり、正解率は高いものの、実際には役に立たないモデルなのです。このような状況では、正解率だけでなく、病気の人を正しく病気と判断できた割合（適合率）や、実際に病気の人の中でどれだけの割合を正しく診断できたか（再現率）、これらを組み合わせたF値といった、他の指標も一緒に見て、モデルを総合的に評価する必要があります。

さらに、正解率は一つの数字だけでモデルの性能を評価するため、予測の確信度といった細かい情報は見落とされてしまいます。例えば、ある画像が「猫」である確率を99%と予測したモデルと、51%と予測したモデルでは、どちらも「猫」と予測したことになり、正解率の上では同じ扱いです。しかし、99%と予測した方がより確信度が高いことは明らかです。このような予測の確信度を考慮するためには、正解率以外の評価指標も必要になります。

つまり、正解率はあくまでも一つの指標であり、他の指標と組み合わせて使うことで、初めてモデルの真価を理解し、適切な判断を下すことができるのです。

問題点	具体例	対策
データの偏り	99%が健康、1%が病気のデータで「常に健康」と予測するモデルは99%の正解率だが、病気の人を全く見つけられない。	適合率、再現率、F値など他の指標も併用する
予測の確信度を考慮できない	猫の画像を99%と予測したモデルと51%と予測したモデルは、正解率上は同じ扱い。	正解率以外の評価指標も必要

他の指標との関係

機械学習モデルの良し悪しを測る物差しの一つに、正解率があります。これは、全体の中でどれだけの割合を正しく分類できたかを示すものです。しかし、正解率だけではモデルの性能を正しく捉えられない場合があります。特に、データの偏りが大きい場合、正解率が高くても実際には役に立たないモデルになってしまう可能性があります。そこで、正解率とともに他の指標も見ていく必要があります。

正解率と合わせてよく使われる指標の一つに、適合率というものがあります。これは、陽性と判断したものの中で、実際に陽性だったものの割合です。例えば、ある病気を診断するモデルで、陽性と診断された人の中で実際に病気だった人の割合が適合率です。適合率が高いほど、陽性と判断したものの信頼性が高いと言えます。

もう一つ、再現率という指標も重要です。これは、実際に陽性であるもの全体の中で、どれだけの割合を正しく陽性と予測できたかを示します。先ほどの病気の診断モデルの例で言うと、実際に病気の人全体の中で、どれだけの割合を正しく病気と診断できたかが再現率です。再現率が高いほど、見落としが少ないと言えます。

適合率と再現率は、トレードオフの関係にあることが多く、どちらかを高くしようとすると、もう一方が低くなる傾向があります。そこで、両方の指標をバランス良く評価するために、F値という指標が使われます。F値は、適合率と再現率の調和平均で、両方の値を考慮した指標です。状況に応じて、適合率、再現率、F値を使い分けることで、モデルの性能をより多角的に評価し、改善につなげることができます。例えば、病気の診断のように見落としが重大な場合は、再現率を重視する必要があります。一方で、スパムメールの検知のように誤って重要なメールをスパムと判断してしまうと困る場合は、適合率を重視する必要があります。

指標	説明	計算方法	重視する状況
正解率	全体の中でどれだけの割合を正しく分類できたか	(正しく分類できた数) / (全体の数)	データの偏りが小さい場合
適合率 (Precision)	陽性と判断したものの中で、実際に陽性だったものの割合	(真陽性) / (真陽性 + 偽陽性)	誤検知を避けたい場合 (例: スパムメール検知)
再現率 (Recall)	実際に陽性であるもの全体の中で、どれだけの割合を正しく陽性と予測できたか	(真陽性) / (真陽性 + 偽陰性)	見落としを避けたい場合 (例: 病気診断)
F値	適合率と再現率の調和平均	2 * (適合率 * 再現率) / (適合率 + 再現率)	適合率と再現率のバランスを取りたい場合

まとめ

機械学習の出来栄えを測るための基本的な方法として、正解率があります。これは、どれだけの割合で予測が当たっているかを示すもので、計算方法も分かりやすく、誰でも簡単に理解できます。しかし、この正解率だけで全てを判断するのは危険です。なぜなら、データの偏り、つまり特定の種類のデータが多い場合に、その偏りに合わせた結果が出てしまうことがあるからです。例えば、ある病気の検査で、その病気に罹患している人が非常に少ない場合、常に「病気ではない」と予測するだけでも高い正解率が出てしまいます。しかし、これは本当に正しい評価とは言えません。

また、正解率は予測の確信度を反映していません。例えば、80%の確信度で「晴れ」と予測した結果が外れた場合と、51%の確信度で「晴れ」と予測した結果が外れた場合、どちらも正解率上は同じ「不正解」として扱われます。しかし、実際には前者の方がより「惜しい」予測だったと言えるでしょう。このような、予測の確信度という重要な情報を、正解率は捉えきれていません。

そこで、正解率以外の評価方法も合わせて使うことが重要になります。例えば、適合率は、予測が当たった中で、実際にどれだけの割合で正しかったかを示す指標です。一方、再現率は、実際に正しいものの中から、どれだけの割合で正しく予測できたかを示す指標です。さらに、これら二つの指標を組み合わせたF値という指標もあります。F値は、適合率と再現率のバランスを考慮した指標であり、どちらか一方だけが突出している場合よりも、両方が高い値である場合に、より高い値を示します。

これらの指標を、それぞれの特性を理解した上で使い分けることで、より正確で多角的な評価が可能になります。例えば、病気の検査のように、見逃しを避けたい場合は再現率を重視し、スパムメールの判定のように、誤判定を避けたい場合は適合率を重視するといった具合です。このように、目的に合わせて適切な指標を選ぶことで、機械学習のモデルをより効果的に改善していくことができるのです。機械学習を学ぶ上で、正解率だけでなく、様々な評価指標を理解し、状況に応じて使い分ける能力は非常に大切です。

評価指標	説明	メリット	デメリット	使用例
正解率	予測が当たっている割合	計算が簡単で理解しやすい	データの偏りに影響されやすい、予測の確信度を反映しない	–
適合率 (Precision)	予測が当たった中で、実際に正しかった割合	誤判定を避けたい場合に有効	見逃しが多い可能性がある	スパムメールの判定
再現率 (Recall)	実際に正しいものの中から、正しく予測できた割合	見逃しを避けたい場合に有効	誤判定が多い可能性がある	病気の検査
F値 (F-measure)	適合率と再現率のバランスを考慮した指標	両方のバランスが良いモデルを選択できる	–	–