周辺確率とは

f:id:whisponchan:20190729073123p:plain
周辺確率
確率変数X,Yの周辺確率とは,2元表(図のように表した表)で表したとき, i,jの取り得る,行の同時確率 \{ f(x_i,y_j) | (i=1,2,\cdots,n,j=1,2,\cdots,n)\}の和をXの周辺確率.同時確率の列の和をYの周辺確率といいます.

Xの周辺確率を f_x(x_i)と表すとし,具体的に書き下すと, f:id:whisponchan:20190728234957p:plain

Yの周辺確率を f_y(y_j)と表し,具体的に書き下すと. f:id:whisponchan:20190729000443p:plain となります.

機械学習の単語まとめ(随時更新)

自分用のまとめです.

・特徴量(features)とは
日本語ではfeaturesのことを特徴量と言ったりします.
特徴量はある属性の集合です.これだけではよく分からないので具体例を出しましょう.
電子メールの場合はメッセージの長さ,送受信者の名前,ヘッダーの情報,送受信時間等が特徴量に該当します.

・仮説集合(hypothesis set)とは
特徴量(特徴ベクトル)をラベル集合 \mathcal{y}写像する関数の集合です.
具体例を示しましょう.ここにメールがスパムかスパムではないかを判定する関数の集合があるとします.
その関数の集合の要素を仮説hとし,その関数(仮説h)は特徴量を異なる集合 \mathcal{y'}写像します.

参照文献

Foundation of Machine Learning (second edition) Mehryar Mohri, Afshin Rostamizadeh, and Ameet Talwalkar
MIT Press, Second Edition, 2018.

独学する社会人のためのおすすめの数学書

はじめに

理学部数学科出身じゃなくてもお手軽に数学を学べる本の紹介です.
この記事のクオリティについては情報学科卒業の私の独断なのでご了承ください.

初級

志賀浩二の数学30講シリーズ

数学に慣れていない人はまずはこれから始めるのが良いでしょう.
いきなり,東京大学出版会の本で始めて,独学できる人はおそらくいないでしょう.
何が良いかというとお気持ち優先で語られているところです.定義,定理は曖昧にぼかすところも多いですが,独学者にとってはまずはお気持ち優先で勉強することをおすすめします.

微分積分30講


線形代数30講


解析入門30講

他にもルベーグ積分固有値30講(関数解析の初歩を扱っている)などもあり,非常に面白いシリーズです.
1講に一日掛けても一ヶ月で読み切れる入門しやすさがあります.
さらにtea timeというコラムの用に書かれているところも非常に良いです.
是非手に取って貰いたいです.

中級

線形代数


線型代数谷川浩司

非常にアルゴリズム的なところから書かれていて読みやすいです.
証明は全て書かれてはいませんが,重要な定理については書かれています.

関数解析


工学系の関数解析 小川英光

独学でもしっかりと学べる関数解析の本と言えばこの本ではないでしょうか?
なぜ証明をするのかということが冒頭に書かれています.非常に納得できることが書かれています.
応用に事足りるくらいの底力をつけるための本という感じがします.
また再生核ヒルベルト空間についても書かれているので,機械学習をやる人にもお勧めです.

マハラノビスの距離の妥当性

はじめに

マハラノビスの距離は良く機械学習や統計でも使われています.ですが,なぜそれが使われているのか,
使って良いのかに言及がされている記事をあまり見たことがないので,今回書いてみることにしました.

マハラノビスの距離とは

Mahalanobisというインドの統計学者が開発した距離だそうです. 入力を x, \hat{\mu}は期待値の推定量を表す.また, \hat{\sum}は共分散行列の推定量である.
このとき,
 x \hat{\mu}とのマハラノビスの距離は (x-\hat{\mu})^\top \hat{\sum}^{-1} (x-\hat{\mu})と表されます. もちろん期待値を求めるのが難しいという現実の問題での話なので, \hat{\mu}という推定量ではなく,
 (x-\mu)^\top \hat{\sum}^{-1} (x-\mu)としてもマハラノビスの距離です.

マハラノビスの距離は, \hat{\sum}によって定まる超楕円体(hyperellipsoid)上の点を等距離とみなす距離尺度です.(以下に図を示す)
f:id:whisponchan:20190628204630p:plain:w300

なぜマハラノビスの距離を使うのか

多変量正規分布を数式で書くと,
 f(x)=\frac{1}{(\sqrt{2 \pi})^{n} \sqrt{|\Sigma|}} \exp \left(-\frac{1}{2}(x-\mu)^{\mathrm{T}} \Sigma^{-1}(x-\mu)\right)
となり, xが入力ベクトル \muが平均ベクトル, \sumが分散共分散行列です.

これは何かというと, 分散共分散行列の逆数を固有値分解してマハラノビスの距離の式に代入すると,楕円方程式になることを意味しています。 なので,多変量正規分布はマハラノビスの距離を用いているので,楕円によって確率分布を表現しているとも言えると思います.

数式で表現すると*1,まず分散共分散行列の逆数を固有値分解します.
 \lambda固有ベクトル \mathbf{U}^{-T} \mathbf{\Lambda}^{-1} \mathbf{U}^{-1}はそれぞれ,正則行列の逆数,対角行列の逆数,正則行列の逆数となっています.
f:id:whisponchan:20190629044707p:plain:h50
そしてその結果をマハラノビスの距離の分散共分散行列の逆数に代入します.
f:id:whisponchan:20190629044637p:plain:h50
f:id:whisponchan:20190629044734p:plain:h50
上の右辺の2次元のときを考えると以下になっており.
これは楕円方程式に一致します.
f:id:whisponchan:20190629044754p:plain:h50

結論的には,多変量正規分布を仮定するときにマハラノビスの距離を用いている.
マハラノビスの距離を仮定するときは多変量正規分布を仮定していると言えると思います.
これはガウシアン混合モデル(GMM)にも使われているので,GMMも多変量正規分布を仮定していると言えると思います.
簡単ではありますが,以上となります.

*1:Machine Learning A Probabilistic Perspective Kevin P. Murphyの4.1.2より