とあるエンジニア(名前はまだない)

データサイエンス

【不均衡データ対策】ラベルに重み付けを設定する方法

【不均衡データ対策】ラベルに重み付けを設定する方法をまとめました。
Python

【定番の前処理】k近傍法を用いたお手軽スマートなテーブルデータの欠損値補完(KNNImputer)

KNNImputerは、k近傍法を用いて値が近いデータを見つけてその値の平均で埋めるので全体を平均で埋めるといった方法より"かなり"無理矢理感が少ないです。
Python

【Kaggle】インターネットオフ要件のNotebookでリポジトリからパッケージをインストールする方法

インターネット接続が必要なパッケージをインターネットオフ要件のNotebookで使用する方法をまとめました。
Python

【Kaggle】インターネットオフ要件のNotebookを提出するには

無効にするには、提出したいNotebookの編集画面の右上、「K」を反転させたようなロゴをクリック①し「Setting」セクションからInternetのトグルを②Offにします。
データサイエンス

分類問題に有効!マンホイットニーU検定による特徴量選択

2値分類問題でどの説明変数が有効であるかマンホイットニーU検定で調べる方法をまとめました。
Python

【定番の前処理】相関係数が大きい項目を削除して多重共線性を解消

【定番の前処理】DataFrameで他のカラムと相関が高すぎる列を一括で削除する方法をまとめました。
Python

【定番の前処理】DataFrameから欠損が多すぎる列を自動削除

【定番の前処理】DataFrameから欠損が多すぎる列を自動削除する方法をまとめました。
Python

DataFrameの指定複数列のユニーク値を取得する

みなさんこんにちは。 今回も初歩的なコードになりますが、私が当時Python慣れていない時に解に辿り着くのに時間が掛かったものになります。 Pythonコード 複数列のユニーク値を取得する方法 import...
Python

DataFrameの指定カラムを標準化しDataFrameで受け取る

DataFrameの指定カラムを標準化しDataFrameで受け取る方法について説明します。
データサイエンス

非正規分布→中央値は危ない!代表値の適切な使い分け

平均値・中央値の使い分けについて説明します。
タイトルとURLをコピーしました