このセクションの他の記事
前処理とは
表形式データ(CSVファイル)を投入して学習を行うとき、[学習に使用する列][予測する列]に数値以外のデータは使用できません。
数値以外のデータを数値に置き換えて、AIモデルが使えるようにする工程を[前処理]といいます。
※ この[前処理]は、文章を解析して数値化する[自然言語処理]とは異なります。
前処理は学習時だけでなく、推論用データセットも同じ構造で作成していれば推論時にも行います。
学習時に行った前処理は設定として保存ができ、推論時には保存した前処理を呼び出して適用することができます。
■MatrixFlow上で行える前処理
大きく分けて3通りの方法があります。
1.数値に変換する
2.欠損値を変換する
3.列を削除する
<数値に変換する>
文字列のままでは使用できないため、数値に変換します。
変換できるのは、値をルールに従って数値に置き換えができる文字列です。
MatrixFlowの前処理で数値変換できる手法は、次の3通りです。
・One-Hotエンコーディング
・ダミーコーディング
・ラベルエンコーディング
それぞれの手法について、詳しくは 数値に変換する をご覧ください。
<欠損値を変換する>
欠損値とは、値があるはずのところに、何らかの理由によって入力されなかったり取得できなかった、欠落した値のことです。ここで注意したいのは、全角半角とも空白文字は欠損値ではない点です。
欠損値を含むデータセットは、統計処理ができなかったり、結果に偏りが生じたり、データがムダになるなど様々なデメリットがあるため、データを補完する処理を行います。
MatrixFlowの前処理で補完できる手法は、次の2通りです。
・欠損値を含む行を削除する
・欠損値を(数値で)埋める
それぞれの手法について、詳しくは 欠損値を変換するをご覧ください。