2016-6-24_23-6-25_No-00

データ解析の手順』 における「5. 回帰モデルもしくはクラス分類モデルを作る」についてです。なお実行するためのプログラムについてはこちらをご覧ください。

公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング) : 大学教授のブログ

[New] GPのプログラムを簡単に入手できるようになりました!

それぞれのURLからお求めください!

R: https://spike.cc/shop/univprof/products/SO3bwijk

Python: https://spike.cc/shop/univprof/products/Gw60sbKW

Gaussian Process (GP)

Gaussian Process (GP) により推定値の信頼性を考慮できる回帰モデルを構築できます。一般的な回帰モデルは、新しいサンプルを入力したときに推定値を計算するだけです。GPのモデルは、推定値に加えてその推定値の標準偏差も一緒に出力します。推定値が正規分布に従うと仮定すれば、たとえば推定値の±3×標準偏差の範囲に、99.7%の確率で実測値が存在することになります。

このように、GPモデルを用いて推定するときは、推定値だけでなくその標準偏差も活用するようにしましょう。

また、GPではモデル構築用データセットの目的変数の値に100%合うような回帰モデルが構築されますので、目的変数のr2C・RMSEC を計算することや、実測値と計算値とのプロットを見ることは意味がありません

GPは下の手順で行われます。

  1. 説明変数をオートスケーリングする
    オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。
  2. GPモデルを構築する
  3. [新しいデータの予測をするとき] 説明変数の新しいデータからオートスケーリングした時の説明変数の平均値を引き、標準偏差で割る
  4. [新しいデータの予測をするとき] 上の2.で得られたGPモデルにより目的変数の推定値および推定値の標準偏差を計算する

予測する際に工夫が必要なのは、最終的に得られたGPモデルは、説明変数がオートスケーリングされた後のモデルであるためです。そこで、新しく予測したい説明変数のデータがあれば、そのデータからオートスケーリングした時の説明変数の平均値を引き、標準偏差で割ってから回帰係数により目的変数の推定値を計算する必要があります。

新しいデータを推定したときは、標準偏差で推定値の信頼性を評価しましょう。

ご案内。

オススメ記事セレクション。

twitterでも発信中。

フォローしていただけると嬉しいです。


無料メルマガでブログにない情報を配信中。

無料メルマガの登録はこちら