このセクションの他の記事
精度評価の見方(分類・回帰)
◆分類
分類では、次の評価指標を用いてAIモデルの精度を評価します。

1.混同行列(Confusion Matrix)
分類した予測結果をまとめた表です。
どのカテゴリーを正しく分類でき、どのカテゴリーを誤って分類したか確認できます。
真を0、偽を1としたとき、
・正解データ 0、AIの予測 0(予測アタリ)
True Positive:47個
・正解データ 1、AIの予測 0(予測ハズレ)
False Positive:12個
・正解データ 1、AIの予測 1(予測アタリ)
True Negative:23個
・正解データ 0、AIの予測 1(予測ハズレ)
False Negative:8個

<混同行列の色の濃さについて>
正解とAIの予測が一致している個数が多いほど、濃い紫で表示されます。
予測があたっている部分の色が濃ければ、AIモデルの予測精度は高いと言えます。
逆に、予測がハズレている部分の色が濃ければ、予測精度は低いと言えます。
2.テストデータ正解率(accuracy)
すべての予測結果の内、実際の値(=投入した学習データの値)と一致しているのがどのくらいあるかを表す、AIモデルを評価する指標です。
100%に近いほど予測精度が良いことを表します。
MatrixFlowでは、学習データセットの一部を予測精度を評価するためのテストデータとして使い、AIモデルが予測した結果とテストデータ内の実際の値を比較して正解率を導き出しています。そのため「テストデータ正解率」と表示しています。
(47+23)/(47+12+8+23)
=0.777=77.8%

3.適合率(precision)
AIが真と予測したものの中で、実際の値も真であったものの割合です。
予測が実際の値と、どのくらい一致しているかを表す「正確性」の指標です。
100%に近いほど正確に予測できていることを表します。
(47)/(47+12)
=0.7966=79.7%

4.再現率(recall)
実際の値が真のものの中で、AIが真と予測したものの割合です。
予測が実際の値を、どのくらい網羅しているかを表す「網羅性」の指標です。
100%に近いほど網羅的に予測できていることを表します。
(47)/(47+8)
=0.8545=85.5%

<適合率と再現率について>
適合率と再現率はトレードオフの関係にあります。
ここでいうトレードオフとは、適合率を上げようとすると再現率が下がり、再現率を上げようとすると適合率が下がるという、両立できない関係性ということです。
どのような値を予測したいのか、データの性質を明確にしておかないと誤ったAIモデルを作成してしまう恐れがあるので注意しましょう。
例)ある病院でがん検診を行い、陽性/陰性の診断をしました。
この時、厳しめに診断し陽性結果を多く出したとします。
この中には実は陰性のケースも含まれますが、真に陽性の的中率が上がるため、再現率は高いです。
しかし、少しでもがんの兆候が見られれば陽性と判断したため、適合率は低いです。
逆に、甘めに診断し陰性結果を多く出したとします。
一般的に陰性のほうが多いため、適合率は高いです。
しかし、がんの兆候がわずかにある場合も陰性と判断しているため、再現率は低いです。
このようながん検診のケースでは、がんの発見を見逃さないようにするため、網羅性を表す[再現率]を重視するのが良いでしょう。
5.F値(F-measure)
「正確性の適合率」と「網羅性の再現率」を組み合わせた指標で、調和平均です。
1.0に近いほど予測精度が良いことを表します。
2*(0.7966×0.8545)/(0.7966+0.8545)
=0.825

◆回帰
回帰では、AIモデルの精度を評価するのはこの指標のみです。

1.テストデータ精度(R2)
AIが予測した値が実際の値にどのくらいあてはまるかを示す指標です。
予測値と実際の値の誤差が大きいほど値は0.0に近くなり、誤差が小さいほど値は1.0に近づきます。そのため、1.0に近いほど予測精度が高いと言えます。
通常は0.0~1.0(=0%~100%)の値を取りますが、1から減算して精度を求めるため、データによってはマイナスになることもあります。