Machine Morning

機械学習やWebについて学んだことを記録しています。

データ分析

Pythonで欠損値を扱う。

Pythonで欠損値を扱う際、主にNone (Null), NaN(Not a Number)を扱うことになる。今回はこれらの違いについて説明する。 None (Null) NoneはPythonに標準で備わっているシングルトンオブジェクトである。PythonではNullをNoneとして扱い、NoneのみがNoneであ…

kaggle apiの使い方(入門)

GitHub - Kaggle/kaggle-api: Official Kaggle APIの簡単な要約。 pip install kaggleでkaggleのコマンドを使えるようにする。 https://www.kaggle.com/<username>/accountにアクセスし、'Create New API Token'を選ぶ。 すると、kaggle.jsonがダウンロードされる。こ</username>…

層化抽出法(stratified sampling)とは

sklearnのtrain_test_split(sklearn.model_selection.train_test_split — scikit-learn 0.20.2 documentation )に引数stratifyを渡せるがstratifyって何?と思ったので調べてみた。 層化抽出法は簡潔に言うと”母集団の分布と同じになるようにサンプリング…