Machine Morning

機械学習やWebについて学んだことを記録しています。

kaggle apiの使い方(入門)

GitHub - Kaggle/kaggle-api: Official Kaggle APIの簡単な要約。

pip install kaggleでkaggleのコマンドを使えるようにする。

https://www.kaggle.com/<username>/accountにアクセスし、'Create New API Token'を選ぶ。 すると、kaggle.jsonがダウンロードされる。これにはユーザー名とAPI Keyが含まれている。

~/.kaggle/kaggle.jsonkaggle.jsonを置く。

セキュリティのためにchmod 600 ~/.kaggle/kaggle.jsonで、ファイルの読み書きの権限を所有者だけに変更すると良い。 これを行わないとkaggleコマンドを叩いた際にwarningが表示される。

コマンドラインからは以下のコマンドを実行できる。

kaggle competitions {list,files,download,submit,submissions,leaderboard}
kaggle datasets {list, files, download, create, version, init}
kaggle config {view, set, unset}

詳細はhttps://github.com/Kaggle/kaggle-api#commandsを参照。

kaggleからデータをダウンロードする

コンペのデータのページからデータを取得するコマンドが簡単に取得できる。

例えば、 https://www.kaggle.com/c/nyc-taxi-trip-duration/data ではkaggle competitions download -c nyc-taxi-trip-durationというのがkaggleのapiを叩いてデータをダウンロードするコマンドである。

このコマンドを実行すると、.zipに圧縮されたデータがダウンロードされる。 この例ではsample_submission.zip, train.zip, test.zipの3つのファイルが取得できる。

unzip *.zipするとそれぞで.csvの形で解凍される。