欠損値を変換する

表形式データ(CSVファイル)を投入する場合、[学習に使用する列][予測する列]に欠損値が存在すると使用できないため、データを補完します。

■欠損値を変換する

[前処理]画面で各列の「前処理内容の編集」をクリックして[列の詳細]画面へ遷移します。

[列の詳細]画面で「欠損値を変換する」の矢印(右図の赤枠)をクリックすると、欠損値を補完する変換メニューが表示されます。

表示されたメニューの矢印(同青枠)をクリックすると、処理メニューが表示されます。

欠損値を変換する_1.png

次からは、各処理がどのような処理を行うのか、詳しく解説します。

■欠損値を含む行を削除する

欠損値がある行を削除します。
欠損値が1つでもある行を丸ごと削除するため、データセットの総データ数が減ります。
削除対象になる行数は「欠損値の数」に表示されます。
削除後にデータ数が減り過ぎてしまい思うような予測精度が得られなければ、他の補完方法を考えるか、データを集め直します。

削除例)

欠損値を変換する_2.png

■欠損値を埋める

欠損値を任意の数値で埋めます。
列内のすべての欠損値を、指定した任意の数値で埋めます。
列の値が数値の場合のみ有効です。システムが列の値を文字列型と判断した場合、本メニューは表示されません。

欠損値になってしまった原因を考慮し、「列の詳細」画面右側に表示される統計情報やヒストグラムでデータの傾向を確認して、埋める数値を決めましょう。
平均値、最小値、中央値、最大値、最頻値などで埋めるケースが多いです。最頻値以外の値は統計情報に記載があります。

変換例)平均値を指定して埋めます。

欠損値を変換する_3.png