決定係数についての誤解

 重回帰分析の結果、「決定係数0.95」というモデルの意味として、

(1) その式で100件予測すれば95件はピッタリ当るが、残りの5件は少し外れる可能性のあるモデルが出来た

(2) その式で100件予測すれば95件はまあまああたるが、残りの5件は大幅に外れる可能性のあるモデルが出来た

(3) 予測の誤差がどれもプラスマイナス5%以内に収まるモデルが出来た

のいずれかのように理解されている方がいるが、これらはいずれも誤りです。

 正しくはどのサンプルを予測してもその結果に誤差は生じているし、その誤差の幅は必ずしも決定係数だけで決まるものではありません(決定係数が1.0に近づけばもちろん残差は小さくなるが)。決定係数が0.95であっても、実績値との差(残差といいます)が10%以上生じているサンプルもあります。逆に決定係数が0.6であるからといって、ほとんどのサンプルが±40%の誤差が生じているということでもありません。

 決定係数が0.95ということは、

『その式に取り入れられた説明変数(立地評価データ)の変動によって目的変数(売上)の変動の95%が説明できる』

ということなのです。すなわち、残りの5%の変動については、残念ながらその式には取り入れられなかった別の要素(未知)で説明しなければしきれない、という意味になります。

 「決定係数○○」を「的中率○○」と読み替えている例を見かけますが、これは本質を正しく表現したものではありません。当たる当たらないだけで分析結果を評価すると、出来上がったモデル式を誤って運用することになりかねませんので、十分注意が必要です。