意外と簡単！Bagging Ensemble（Bootstrap Aggregating）

データサイエンス

2023.01.08 2021.07.10

みなさんこんにちは。

今日はアンサンブルの1つ、Bagging Ensemble（バギング）のやり方について紹介します。

XGBoostやLightGBMは既にアンサンブルが施されているので意識する必要はないと思いますが、深層学習ではアンサンブルが既に入ったモデルはありませんので自前でアンサンブルを構築する必要があります。

ということで、いつも通り、論よりコード。

要所Pythonコード
全体Pythonコード（一部イメージ）
解説
まとめ

要所Pythonコード

for n in range(5):
　　　　train_df = df.sample(frac=1, replace=True)

要所だけ言いますと、上記のようにreplace=Trueで重複を許したリサンプリングをモデルを1つ作る度に行い、最後はそれらモデル（例では5個）の予測値の平均を最終予測値とする、だけです。

（説明変数もリサンプリングするアプローチもあるそうです。）

また、これを何回か繰り返しても、確率的に一定の割合のデータが抽出されずに残ります。

それを精度の評価に使うというのがOut of Baggingになります。

全体Pythonコード（一部イメージ）

# Dataframeを想定
import pandas as pd

############
# モデル作成 #
############

# dfを学習データとする
df = pd.DataFrame(...)

# 何個モデルを作るか
n_model = 5

# 作ったモデルを入れる配列
model_list = []

# oob評価結果格納用
oob_results = pd.DataFrame(columns={"accuracy", "precision", "recall", "specificity"})


# n_model分だけモデルを作る
for i in range(n_model):
    # 復元抽出法でリサンプリングする（"replace=True"が重複を許してランダムにサンプルする設定）
    train = df.sample(frac=1, replace=True)

    # 復元抽出すると大体３割が選択されないで残るので、テストに使用できる。(OOB: Out of Bagging)
    oob = df[~df.index.isin(train.index)]

    # Tensorflow Estimatorだったらこんな感じ...（テキトーです)
    model = DNNClassifier(...)
    # 学習
    model.train(train)

    # oobテスト
    result = model.evaluate(oob)
    print(result)
    # 結果は保存しておく
    oob_results = oob_results.append(result, ignore_index=True)

    # リストに保存
    model_list.append(model)

# oob予測結果を平均してモデルのおおよその精度を把握する
print(oob_results.mean())

########
# 予測  #
########
# 予測対象データ
df_predict = pd.DataFrame(...)

# 予測結果格納用
predict_results = pd.DataFrame(columns={"id", "predict"})

# 作ったモデルだけ予測
for model in model_list:
    # 予測結果
    result = model.predict(df_predict)

    # 結果は保存しておく
    predict_results = predict_results.append(result, ignore_index=True)

# 予測結果を平均したものを最終的な予測値とする
print(predict_results.groupby("id").mean())