MatrixFlowMatrixFlowマニュアル

重要度

重要度_x.png

重要度は、
それぞれの[学習に使用した列]が[予測する列]にどれ程の影響を与えたかを可視化する機能です。
上の画像は、タイタニック号の乗客データを使用して、[生存結果(生存/死亡)]を[性別]と
[チケットクラス]を使用して学習したものです。

■重要度の分布
重要度の分布では、「正と負のどちらの寄与かの詳細を表す」内容です。

重要度_1.png

1.右の重要度の分布を表示するエリアに、
  どの[学習に使用した列(説明変数)]を表示するか選択出来ます。
2.「0」は女性を表しています。
  女性という文字列は学習には使えないため、前処理で0として設定して学習している為です。
3.「1」は男性を表しています。
  男性という文字列は学習には使えないため、前処理で1として設定して学習している為です。
4.「0より上」が生存確率が高く、「0より下」は死亡確率が高い事を表しています。

このことから、
「0(女性)ほどプラス(生存)している可能性が高い」である事が読み取れ、
「1(男性)ほどマイナス(死亡)している可能性が高い」である事がわかります。

重要度_2.png

それでは、性別の次にある[チケットクラス]の重要度を見てみましょう。

<学習に使った値の前処理内容>
・1stクラスは数値1を設定しています。
・2ndクラスは数値2を設定しています。
・3rdクラスは数値3を設定しています。

<生存結果の数値>
・生存は0より上
・死亡は0より下

チケットクラスの要因説明の正解は、
・1stクラスの生存率が高い。
・2ndクラスの生存率は比較的高いが、1stクラスに比べると死亡率が上がる。
・3rdクラスの生存率は極めて低い。
この様な要因説明となります。

■重要度の大きさの比較

重要度_3.png

予測する列に与えた重要度の大きさを表した図で、データ毎の重要度が表示されています。
学習データとテストデータを合わせ、データの寄与度を平均して寄与度が高い順に並べています。

ここで重要なのは相対的な大きさであり、横の値の大きさを気にする必要はありません。
上の画像を見ると、[性別]の方が[生存結果]に与える影響が大きい事がわかります。