Machine Morning

機械学習やWebについて学んだことを記録しています。

ディープラーニング

自動微分とは

自動微分(Automatic Differentiation)とは関数を合成関数に分割し連鎖律(Chain rule)の方法で偏導関数値を求める方法である。複雑な数式も四則演算や指数関数、対数関数、三角関数などの基本的な関数の組み合わせでできているため、それらを分割すること…

なぜソフトマックス関数にeを使うのか

ソフトマックス関数はニューラルネットワークにおいてスコア(affine layerから出力された値)を確率に変換する役割を持っている。しかしなぜわざわざを底として累乗するのだろうか。 ソフトマックス関数とは ソフトマックス関数による出力値はニューラルネ…

Spark入門2

Sparkのインストール SparkはJavaのバーチャルマシン(JVM)上で動くので、JVMを入手する。JVMはJava SE Development Kit(JDK)をインストールすることで手に入る。2018年8月21日現在ではバージョン10が最新だ。以下のリンクから自分のマシンに合ったものを…

Spark入門

Sparkのコアのデータ構造は(RDD: Resilient Distributed Dataset)である。pandasのDataFrameのようにデータセットをRDDにロードして、メソッドでデータを扱う。 PythonでSparkを使うにはPySparkを使う。SparkはJavaでできているので Py4Jによって、Javaの…

SparkとHadoopの違い

この記事は以下の記事の翻訳、要約、及び筆者が調べたことのまとめです。 www.scnsoft.com 両方ともApacheによるOSSである。2017年時点では歴史の長いHadoopがより多く使われているが、Sparkも爆発的に人気を上げていてパフォーマンスもよい。 主な違い Spar…

Google ColaboratryでGoogle Driveからデータセットをインポートする

Google ColaboratoryにはPythonでGoogle Driveを扱うためのPyDriveが標準で入っていないので、初めに!pip install -U PyDriveする。 そしたら必要なライブラリを読み込む。 !pip install -U PyDrive from pydrive.auth import GoogleAuth from pydrive.drive…