モデル評価(MAE/RMSE)

編集日
2024年5月
カテゴリ
評価/運用

はじめに

開発したモデルの評価方法について記述します。モデルの評価方法の 1 つとして評価指標を使った評価があります。時系列回帰の評価指標は大きく予測値と実測値との誤差の大きさを表す MAE や RMSE と実測値に対する予測値の当てはまりを表す CORR と R2 の 2 つに分けられます。

本ページでは、Node-AI にも標準搭載されている MAE/RMSE/MAPE を重点的に解説します。本ページの後に相関係数と決定係数を読むとモデルの評価方法について深く理解できます。

Mean Abusolute Error（MAE）

平均絶対誤差（MAE：Mean Absolute Error） は予測値と実測値の差の絶対値の平均を意味し、回帰問題における出力の評価指標として用いられます。主な活用方法として、モデル学習時の損失関数 と テストデータに対する評価指標 があります。 MAE は、平均的な予測値と実測値の差 を意味し、より小さい値をとるほど予測精度が高いと言えます。下記に定義を示します。

$$ MAE = \frac{1}{N}\sum^N_{i=1}|y_i-\hat{y_i}| $$

$y_i$は$i$番目の実測値、$\hat{y_i}$は$i$番目の予測値、$N$はデータ数です。 MAE は、誤差の二乗を計算する MSE や RMSE よりも外れ値の影響を受けにくく、予測値と実測値の差の絶対値の平均ということから、結果を解釈しやすいという利点があります。

Root Mean Squared Error(RMSE)

二乗平均平方誤差(RMSE:Root Mean Squared Error) も MAE と同様に、予測値と実測値との誤差を意味します。下記に定義を示します。

$$ RMSE = \sqrt{\frac{1}{N}\sum^N_{i=1}(y_i-\hat{y_i})^2} $$

RMSE は、予測値と実測値の差の二乗和の平方根を取り算出するため、MAE よりも外れ値の影響を大きく受けます。

MAE と RMSE の解釈

MAE と RMSE の解釈には、スケールに注意する必要があります。なぜスケールに注意する必要があるのか MAE を例にして紹介します。下記に MAE の値が 10 となるような、サンプル A とサンプル B の 2 つの予測値と実測値を示します。※MAE はデータの集合に対して適用する前提ですが、イメージのしやすい 1 サンプルで考えます。

A 予測値：10001、実測値：10011
B 予測値：101、実測値：111

A と B のどちらも MAE の値は 10 となりますが、A の$MAE=10$という結果は、B の$MAE=10$という結果よりも高い精度で予測できていることが直感的にわかると思います。 MAE は予測値と実測値が平均してどの程度のズレがあるかを示す指標ですので、B の実測値 111 に対する MAE=10 というのは予測精度としては不十分であると考えられます。このような場合に、平均絶対パーセント誤差(MAPE:Mean Absolute Percentage Error) を用いて、実測値に対する予測値の平均的な誤差の割合を算出して、結果を解釈することもあります。

$$ MAPE = \frac{1}{N}\sum^N_{i=1}\frac{|y_i-\hat{y_i}|}{y_i} $$

MAPE の注意点としては、実測値が$-1<y<1$となる時、MAPE を意図した目的で計算できないので、実測値にそのような値が含まれていないか確認する必要があります。

また、評価データの目的変数の平均と分散を元に MAE の結果を解釈することもできます。分散はデータのばらつきを表す指標で、各サンプルがデータの平均値からどの程度離れているかを意味します。例えば、ある評価データの目的変数が平均$\bar{y}=105$、分散$s=20$である時、$MAE=10$は分散$s=20$より小さく、データが平均的に持つばらつきの範囲内に収まっており、悪くない結果と考えることもできます。

MAE と RMSE の使い分け

評価データを活用したモデル評価の観点では、結果の解釈のしやすさから MAE が用いられることが多いです。 RMSE は、予測値と実測値の差が大きくなるような当てはまりが悪い箇所の影響を重要視したい場合に用いることがあります。予測値と実測値の平均的な絶対値の差として解釈したい場合は MAE、誤差が大きくなる箇所の影響を重要視したい場合は RMSE といった具合でしょうか。

予測困難な期間の評価

時系列データのモデル開発では、用意したデータ期間全てを使ってモデル開発をした場合、どうしても予測困難な期間が生じてしまいます。この予測困難な期間というのは、製造工場のセンサーデータであれば機器のトラブル、株価データであれば決算による影響など突発的なイベントが原因で発生します。こういったイベントの影響を大きく受けている期間は正常な状態とは大きく異なるため、予測が困難となります。評価データにこのような期間のデータが含まれる場合、該当期間を削除して正常期間だけで評価することが望ましく、異常な期間は人が対応することを想定した運用方法を考えておく必要があります。時系列データの例

参考文献

高柳 (2023). 評価指標入門〜データサイエンスとビジネスをつなぐ架け橋. 技術評論社.

編集日

カテゴリ