【StandardScaler】DataFrameの標準化を戻す方法と標準化を戻す必要について

Python

2022.06.08 2021.06.19

みなさんお久しぶりです。

今日は検索ワードを見ていて標準化を戻したい方々がいるようなのでアンサーをしてみたいと思います。

また、標準化を元に戻す場面ってありますか？という話もします。

それでは早速、コードを書いておきます。

Pythonコード
標準化を戻す必要について
まとめ

Pythonコード

導入（読み飛ばしてOK）

import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split

# irisデータセットをサンプルデータとして使用
iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target

# trainとtestに分けてみる。
X_train, X_test, Y_train, Y_test = train_test_split(df.drop("target", axis=1), df.target,train_size=0.8)

通常の標準化作業

# StandardScaler読み込み
from sklearn.preprocessing import StandardScaler

# 標準化したいカラムを用意
scaling_columns = ["sepal length (cm)", "sepal width (cm)", "petal length (cm)", "petal width (cm)"] 

### 通常の標準化###
# trainと言うDataFrameにfit
sc = StandardScaler().fit(X_train[scaling_columns])

# 標準化したカラムのみ元のDataFrameに戻す
scaled_train = pd.DataFrame(sc.transform(X_train[scaling_columns]), columns=scaling_columns, index=X_train.index)
X_train.update(scaled_train)

# 例えば本番データの変換を見据えて、この度のStandardScalerを保存しておくこともできます。
from joblib import dump
dump(sc, "StandardScaler.bin", compress=True)

標準化を元に戻す

# 保存したStandardScalerを読み込み
from joblib import load
sc = load("./StandardScaler.bin")

# 標準化したカラムのみ標準化を戻し、元のDataFrameに戻す
rescaled_train = pd.DataFrame(sc.inverse_transform(X_train[scaling_columns]), columns=scaling_columns, index=X_train.index)
X_train.update(rescaled_train)