データ前処理
機械学習・データマイニングにおけるデータ前処理(データまえしょり、英: data preprocessing)は学習の前段階で行われるデータ変換である[1]。
概要
編集機械学習やデータマイニングではモデルとデータが用意され、データに基づいてモデルのパラメータが更新=学習される。しかしデータがモデルに適さない場合がある(例: モデル入力サイズとデータ次元の不一致)[2]。そのため、学習より前の段階で、人が考案した規則に従って、生データを学習データへと変換することがある。この変換をデータ前処理という。
目的
編集データ前処理には様々な目的がある。
関連する慣用句として「ガベッジイン、ガベッジアウト」がある。
脚注
編集- ^ "tf.keras.preprocessing ... preprocess data before training." TensorFlow docs. 2022-07-17閲覧.
- ^ "One issue ... is that the samples are not of the same size. Most neural networks expect the images of a fixed size. Therefore, we will need to write some preprocessing code." PyTorch docs. 2022-07-17閲覧.
- ^ "外れ値が残ったままデータ分析を実行すると、ほとんどのケースで全体の分析結果がゆがんでしまいます。極端に大きな値や小さな値を分析データに含めることで、分析結果が外れ値に引っ張られてしまうからです。" 橋本. (2020) データ分析は前処理が8割、「毒抜き」しないと危険. 日経クロステック.