Machine Morning

機械学習やWebについて学んだことを記録しています。

Google ColaboratryでGoogle Driveからデータセットをインポートする

Google ColaboratoryにはPythonGoogle Driveを扱うためのPyDriveが標準で入っていないので、初めに!pip install -U PyDriveする。 そしたら必要なライブラリを読み込む。

!pip install -U PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

次に認証を行う。

auth.authenticate_user()
gauth_ = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

するとGoogleアカウントにログインし認証するように促されるので、指示に従って認証キーを取得し、認証キーをGoogle Colaboratory側で渡す。 これで認証は完了しているため、Google Colaboratoryからデータとして使いたいファイルを読み込み、ここではデータを扱いやすいようにpandasのデータフレームに落としむ。 TRAIN_FILE_IDとTEST_FILE_IDはGoogle Driveのファイルを右クリックしてGet sharable linkからidだけ取り出せばよい。

train_downloaded = drive.CreateFile({"id": "<TRAIN_FILE_ID>"})
train_downloaded.GetContentFile("train.csv")
test_downloaded = drive.CreateFile({"id": "<TEST_FILE_ID>"})
test_downloaded.GetContentFile("test.csv")

df_train = pd.read_csv("train.csv")
df_test = pd.read_csv("test.csv")

これでデータフレームとしてデータを扱えるようになった。

参考

nali.org