オーバフィッティング

過学習：AIの落とし穴

人工知能の学習において、過学習はよく起こる問題です。これは、まるで試験前に過去問ばかりを解き、解答を丸暗記した生徒のような状態です。過去問と全く同じ問題が出題されれば高い点数を取ることができますが、問題の形式が変わったり、初めて見る問題が出題されると、途端に解けなくなってしまいます。人工知能の学習では、この「過去問」にあたるのが学習に使うデータであり、「新しい問題」にあたるのが実際に使われる未知のデータです。学習データに過度に適応した学習をしてしまうと、未知のデータに対する能力が低くなり、本来の性能を発揮できなくなります。これを過学習、あるいは過剰適合などと呼びます。例えるなら、ある果物の見分け方を学ぶとしましょう。学習データとして、１０個の赤いリンゴの画像を与えられたとします。人工知能は、その１０個の赤いリンゴの特徴を学習し、「赤い、丸い」という特徴を持つものをリンゴと判断するようになります。しかし、世の中には緑色のリンゴや、赤いトマトなども存在します。この人工知能は、赤いリンゴだけを学習したため、緑色のリンゴはリンゴと認識できず、赤いトマトをリンゴと誤って認識してしまう可能性があります。これが過学習です。過学習を防ぐためには、学習データを増やす、学習データの偏りをなくす、学習の複雑さを調整するなどの対策が必要です。多くの種類のリンゴや他の果物の画像も学習データに加えることで、人工知能は「リンゴらしさ」をより正確に捉えることができます。また、学習の複雑さを調整することで、学習データの特徴に過度に固執しないように制御することも重要です。適切な対策を施すことで、過学習を抑制し、未知のデータに対しても高い性能を発揮する人工知能を構築することが可能になります。

2024.12.21

AI活用