技術ブログ

Developers's blog

機械学習におけるパラメータとその決定法

2020.07.21 小池 壮
機械学習
機械学習におけるパラメータとその決定法

このブログはそもそもパラメータという言葉をよく耳にするが、どのように決定しているのか知りたい人(機械学習の初歩的な数学の理論を知りたい人)向けです。少し数学的な計算も入ってきます。

学習とは、仮定から導き出した誤差関数を最小に,あるいは尤度関数や事後分布を最大にするパラメータを求めることでした。そのうち今回は尤度関数と勾配法について説明していきたいと思います。

パラメータとはどういう設定値や制限値で機械学習の予測モデルを作るのかを示すものです。イメージとして、あとで定義する尤度関数が下のグラフのようになっている時、尤度関数の最大値を取るθを求めるという作業です。

download.jpg

目次

  1. 最尤推定法

  2. 勾配法

  3. 最尤推定法と勾配法の問題点


1.最尤推定法

確率分布は既知ですが、ある母数(パラメータθ)が未知な母集団を考えます。

この場合、この確率分布が連続型であるならば、確率分布はθに依存する関数と考えられ、f(x,θ)と表します。

この母集団から独立にn個標本を抽出した時のデータがx1,x2,....,xnの値をとる確率は、L(θ)=f(x1,θ)f(x2,θ)....*f(xn,θ)と考えられ、L(θ)を尤度関数といいます。

まず具体例を見てみましょう。

正規分布の平均、分散の最尤推定

X~N(μ,σ^2)とします。(N(μ,σ^2)は平均μ、分散σ^2の正規分布)

すると以下のように平均と分散の最尤推定値が求められます。
正規分布の確率密度関数を以下のように与えられます。

正規分布1-1-1.png

(x1,.....,xn)というデータが与えられたとすると、尤度関数は次のようになります。

正規分布1-2.png

なので両辺に自然対数を取ると、以下のように対数尤度関数が導かれます。

正規分布1-3.png

これから平均μを最尤推定法により推定します。対数尤度関数をμに関する関数と見て偏微分し、その結果が0となる値を求めます。

正規分布2.png

次に、分散σ^2を最尤推定法により推定します。対数尤度関数をσ^2に関する関数と見て偏微分し、その結果が0となる値を求めます。

正規分布3.png

以上が最尤雨推定法の概要です。


2.勾配法

勾配法は最小値や最大値を求めるためのアルゴリズムで、解析的に解くことが困難な問題に用いられます。

「解析的に解けない」とは、ある関数に対してうまく微分ができない状態や実際に数値として表すには禁じせざるを得ない状況のことです。

勾配法は解析的に解くのが困難な時に有効なアルゴリズムで、最適化問題などに用いられます。 具体的な方法を解説していきます。

  1. 適当に初期点を決める

  2. 今いる位置における関数の値が最も小さくなる方向を計算する

  3. その方向に微小単位で移動する

その後は、2,3の手順をひたすら繰り返し、収束した場合、この繰り返しを終了します。

download.png

この例は解析的にも解けますが、勾配法を使って説明するとまずはじめにx0という点を初期値として選択します。

次に、今いる位置における関数が小さくなる方向を計算します。これは図からわかる通り、x1の方向に近づく方向になります。

ここからは今までの操作の繰り返しです。

すると、図からX*という点で今まで同様左側に移動すると関数の値が大きくなってしまいます。

つまり、図の範囲でパラメータとして最も良いものはx*ということになります。


3.最尤推定法の問題点

データ数が少ない時に偏りがあることです。

この例としてコインの裏表を3回投げるという試行を考えます。 もし、表が三回連続で出てしまった時、表の出る確率は最尤推定法で求めると1となりますが、本来表の出る確率は1/2であるはずです。 これがデータ数が少ないことによるパラメータの偏りです。

サンプルから構造を推測する モデルにおいては適していません。

例えば、混合正規分布、混合2項分布、神経回路網、ベイズネットワーク、 隠れマルコフモデルなどのもウール構造を持つモデルについては最尤推定法は適していません。 つまり、「尤度関数が最尤推定量の近傍でだけ 大きな値になる」という条件が最尤推定が安全に使えるための条件です。

また、尤度関数は常に解析的に解けるものではないので、最尤推定以外の方法でパラメータを求める必要があります。(勾配法など) 必ずしも全ての試行が確率分布に従うとは限らず、確率密度のある点における接線の傾きを測る勾配符が用いられるケースがあります。

関連記事

データから簡単にレポート作成!  ーARRIA NLG PLCで自然言語生成ー

皆さんはレポートを作成する際、どのような方法で作成していますか? 膨大な量のデータを読み解き、文章を考えて、何かうまくまとまらない...... もっと簡単にできたらいいのに!と思ったことはありませんか? この記事では、Arria NLG PLCのデータから文章を生成する技術について紹介します。 1 ARRIA NLG PLCとは? ARRIA NLG PLCは2009年に設立した企業です。しかし、その技術は30年間の科学的研究に基づいたもので、ARRIA

記事詳細
データから簡単にレポート作成!  ーARRIA NLG PLCで自然言語生成ー
利用事例 機械学習
自然言語処理の予測理由を説明する WT5?! Training Text-to-Text Models to Explain their Predictions

概要  今回は、以前ブログで紹介したText-to-Text Transfer Transformer(T5)から派生したWT5(Why? T5)を紹介します。  Text-to-Text Transfer Transformerとは、NLP(自然言語処理)のタスクをtext-to-text(テキストを入力して、テキストを出力する)形式として考えたもので、様々なタスクでSoTA(State of the Art=最高水準)を獲得しました。こちらの記事で詳し

記事詳細
自然言語処理の予測理由を説明する WT5?! Training Text-to-Text Models to Explain their Predictions
機械学習 自然言語処理 論文解説
感染症モデルを用いた実効再生産数の予測 ーコロナウイルスはどれほど拡大するのかー

新型コロナウイルス感染症とは? 2019年12月より中国で 新型コロナウイルス ( COVID-19 )による肺炎が発生し、2020年4月現在では日本国内でも急速に感染が拡大しています。 新型コロナウイルスは、感染症法における「 指定感染症 」、及び検疫法における「 検疫感染症 」に指定され、感染が確認された患者に対して入院措置などの法的処置を取ることが可能となりました。 今回は、まず感染の拡大等を予測できる感染症モデルについていくつか紹介していこうと思い

記事詳細
感染症モデルを用いた実効再生産数の予測 ーコロナウイルスはどれほど拡大するのかー
利用事例 機械学習
AIはコロナウイルスに対抗できるか?

世界で猛威を振るうコロナウイルスの抑制に向けて、AI・機械学習はどのような貢献ができるでしょうか。 政府、研究者、保健機関を支援するための早期警告、および検出アルゴリズム、患者の旅行履歴に基づく分析、そして最終的にはコロナウイルスワクチンの作成および開発まで、AIはおそらく鍵となるテクノロジーになるでしょう。今回はAI・機械学習での貢献にチャレンジしている事例を紹介します。 機械学習によるウイルスの検出と追跡 たとえば、カナダに本拠を置く病気の分散予測プラ

記事詳細
AIはコロナウイルスに対抗できるか?
コラム 利用事例 機械学習

お問い合わせはこちらから