Machine Morning

機械学習やWebについて学んだことを記録しています。

2018-08-01から1ヶ月間の記事一覧

なぜソフトマックス関数にeを使うのか

ソフトマックス関数はニューラルネットワークにおいてスコア(affine layerから出力された値)を確率に変換する役割を持っている。しかしなぜわざわざを底として累乗するのだろうか。 ソフトマックス関数とは ソフトマックス関数による出力値はニューラルネ…

matplotlibは一つのセルで完結させるべき...?

Google Colaboratory上でmatplolibでプロットしていたら、ハマったポイント。 複数セルにまたがって書くと初期化される? pltのインスタンスを作成したら、plt.show()するまでセルを変えない方が良い? Plot disappears after executing cell second time · …

Colaboratoryでグラフをファイルとして保存する

Google Colaboratoryでプロットしたグラフを保存するにはplt.savefig()だけではできない。 import matplotlib.pyplot as plt from google.colab import files # グラフを作成したら plt.savefig("file_name") files.download("file_name") これでローカルの…

yieldとは

yieldを理解するために、まずはIterablesについて解説する。 Iterables listを作成すると要素を一つずつ読むことができる。この要素を一つずつ読み出す作業をiterationと呼ぶ。 >>> sample_list = [1, 2, 3] >>> for i in sample_list: ... print(i) 1 2 3 s…

Spark入門2

Sparkのインストール SparkはJavaのバーチャルマシン(JVM)上で動くので、JVMを入手する。JVMはJava SE Development Kit(JDK)をインストールすることで手に入る。2018年8月21日現在ではバージョン10が最新だ。以下のリンクから自分のマシンに合ったものを…

Spark入門

Sparkのコアのデータ構造は(RDD: Resilient Distributed Dataset)である。pandasのDataFrameのようにデータセットをRDDにロードして、メソッドでデータを扱う。 PythonでSparkを使うにはPySparkを使う。SparkはJavaでできているので Py4Jによって、Javaの…

SparkとHadoopの違い

この記事は以下の記事の翻訳、要約、及び筆者が調べたことのまとめです。 www.scnsoft.com 両方ともApacheによるOSSである。2017年時点では歴史の長いHadoopがより多く使われているが、Sparkも爆発的に人気を上げていてパフォーマンスもよい。 主な違い Spar…

purgeとは

purgeコマンドはMacのメモリを解放するコマンドである。 buffer cacheとpage cache page cacheはデータの読み書きを高速化するためにデータをページとして一時的にメインメモリ上に保存することである。 buffer cacheは記憶階層やデータをやり取りする装置や…

パーティションとは

パーティションはハードディスクのストレージを分割したもので、実際には一つのハードディスクが2つ、3つあるように使うことができる。それぞれのパーティションは他のパーティションに影響を与えない。すなわち、いずれかのパーティションに障害が生じても…

Google ColaboratryでGoogle Driveからデータセットをインポートする

Google ColaboratoryにはPythonでGoogle Driveを扱うためのPyDriveが標準で入っていないので、初めに!pip install -U PyDriveする。 そしたら必要なライブラリを読み込む。 !pip install -U PyDrive from pydrive.auth import GoogleAuth from pydrive.drive…

kaggle apiの使い方(入門)

GitHub - Kaggle/kaggle-api: Official Kaggle APIの簡単な要約。 pip install kaggleでkaggleのコマンドを使えるようにする。 https://www.kaggle.com/<username>/accountにアクセスし、'Create New API Token'を選ぶ。 すると、kaggle.jsonがダウンロードされる。こ</username>…

ttyとは

psを叩いて表示されるプロセス一覧の項目にTTYが存在する。 ちなみにttyというコマンドも存在し、これはteletypewriterの略で、man ttyで内容を確認してみると、 The tty utility writes the name of the terminal attached to standard input to standard o…

はてなで二重線の白抜き文字を書く

実数Rや整数Zなどをやのように書く方法は、 \mathbb{白抜きにしたい文字} である。文字と数字だけを白抜き文字にしてくれる。 例 [tex: \mathbb{R}] [tex: \mathbb{Z}] [tex: \mathbb{0}] [tex: \mathbb{\pi = 3.14}]

Multinoulli distribution

Murphyを読んでいたらMultinoulli distributionという言葉が出てきた。ベルヌーイ分布の多次元版かなと思ったら大正解。カテゴリカル分布の別名ということである。Multinoulli distributionに相当する日本語がなかったので、カテゴリ分布と読み替えておけば…

webサイトパフォーマンスのテストサイト

次の2つのサイトがwebサイトのパフォーマンスをテストするのに使える。 PageSpeed Insights www.webpagetest.org 1つ目はGoogleが公開しているwebサイトの表示速度を測るサイト。 2つ目は様々なデバイス上でのパフォーマンスを測定できる。

DOMContentLoadedとload

document.addEventListener("DOMContentLoaded", event => { console.log("DOM fully loaded and parsed"); }); window.addEventListener("load", event => { console.log("All resources finished loading"); }); console.log("script.js finished loading …

表示を高速化するjsファイルの読み込み方

サードパーティスクリプトとは 外部から提供されている機能のスクリプトのこと。例として以下のようなものがあげられる。 TwitterやFacebookなどのSNSでシェアするボタン YouTubeのような動画の埋め込み 広告系のiframe 解析やメトリクスツール A/Bテスト デ…