『データ解析の手順』 における「5. 回帰モデルもしくはクラス分類モデルを作る」についてです。なお実行するためのプログラムについてはこちらをご覧ください。
[New] GPのプログラムを簡単に入手できるようになりました!
それぞれのURLからお求めください!
R: https://note.mu/univprof/n/n61176d7cb6ed
Python: https://note.mu/univprof/n/n00b2009c0017
Gaussian Process (GP)
Gaussian Process (GP) により推定値の信頼性を考慮できる回帰モデルを構築できます。一般的な回帰モデルは、新しいサンプルを入力したときに推定値を計算するだけです。GPのモデルは、推定値に加えてその推定値の標準偏差も一緒に出力します。推定値が正規分布に従うと仮定すれば、たとえば推定値の±3×標準偏差の範囲に、99.7%の確率で実測値が存在することになります。
このように、GPモデルを用いて推定するときは、推定値だけでなくその標準偏差も活用するようにしましょう。
また、GPではモデル構築用データセットの目的変数の値に100%合うような回帰モデルが構築されますので、目的変数のr2C・RMSEC を計算することや、実測値と計算値とのプロットを見ることは意味がありません。
GPは下の手順で行われます。
- 説明変数をオートスケーリングする
オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。 - GPモデルを構築する
- [新しいデータの予測をするとき] 説明変数の新しいデータからオートスケーリングした時の説明変数の平均値を引き、標準偏差で割る
- [新しいデータの予測をするとき] 上の2.で得られたGPモデルにより目的変数の推定値および推定値の標準偏差を計算する
予測する際に工夫が必要なのは、最終的に得られたGPモデルは、説明変数がオートスケーリングされた後のモデルであるためです。そこで、新しく予測したい説明変数のデータがあれば、そのデータからオートスケーリングした時の説明変数の平均値を引き、標準偏差で割ってから回帰係数により目的変数の推定値を計算する必要があります。
新しいデータを推定したときは、標準偏差で推定値の信頼性を評価しましょう。
ご案内。
- 実践的なデータ解析の手順
- データ解析の手順の各段階における手法
- 公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング)
- 主成分分析(PCA)の進化する入門書・実践書~数式なしの導入から実践的応用・結果の解釈まで~(随時更新)
- 20人の学生に対する研究テーマの決め方
オススメ記事セレクション。
- 大学教員の5つのメリット (とデメリット?)
- 現役データサイエンティストへの『人工知能って怖いの?』に対する回答
- 人工知能との未来における人の役割~現役のデータサイエンティストのメッセージ~
- 集中する時間を確保するために大学教授が行っている8つのこと
- 風邪を引かないために大学教授が毎日行っている7つの方法
twitterでも発信中。
フォローしていただけると嬉しいです。
Follow @univprofblog1Tweets by univprofblog1
無料メルマガでブログにない情報を配信中。
無料メルマガの登録はこちら