Machine Morning

機械学習やWebについて学んだことを記録しています。

sklearnのtransformとfit_transform

fitは与えられたデータセットの統計量を算出し、transformはデータセットの統計量を元にデータを変換(標準化、正規化)する。 fit_transformfittransformを両方順に行う。

訓練用データには統計量を算出するfit_transform、テスト用データには訓練用データで求めた統計量を元に変換するtransformを使うのがよい。

でも、なぜテストデータの統計量を用いて変換してはいけないのだろう。。

参考

mathwords.net