2016-06-20_22h14_37

データ解析の手順』 における「3. 外れ値処理・変数処理・ノイズ処理を行う」についてです。なお実行するためのプログラムについてはこちらをご覧ください。

公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング) : 大学教授のブログ

[New] GAPLSのプログラムを簡単に入手できるようになりました!

こちらのURLからお求めください!

R: https://spike.cc/shop/univprof/products/04D22ITn

Genetic Algorithm-based Partial Least Squares (GAPLS)

Genetic Algorithm-based Partial Least Squares (GAPLS) により、PLSモデルのクロスバリデーションの結果がよくなるような変数の組み合わせを選択できます。

GAPLSによる変数選択は下の手順で行われます。

  1. GA関係のパラメータを設定する
    染色体の数、世代数、最小の変数の数、最大の変数の数、突然変異の確率などです。
  2. PLS関係のパラメータを設定する
    何-fold クロスバリデーションか、最大の成分数、何回クロスバリデーションを行うか、などです。
    特に理由がなければ、オーバーフィッティングを防ぐため、最大の成分数は10くらいがよいです。
    また各染色体の適合度の計算のために一度しかクロスバリデーションを行わないと、あるクロスバリデーションにおいてたまたま適合度が高くなったときに、そのクロスバリデーションにおけるデータセットの分割方法にあうような変数の組み合わせが得られてしまいます。複数回クロスバリデーションを行いその結果の平均をGAの適合度とすることで、そのようなことが起こりにくくなります。ただ回数を大きくすると、その分計算時間もかかります。
    もしくは、複数回クロスバリデーションを行う代わりに、ダブルクロスバリデーションを一回だけ行い適合度を計算しましょう。
  3. 説明変数・目的変数をオートスケーリングする
    オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。
  4. GAPLSを実行する

この流れによって、最終的に選ばれた説明変数の情報が得られます。次は選ばれた変数のみを用いて、回帰分析を行うことになります。

ご案内。

オススメ記事セレクション。

twitterでも発信中。

フォローしていただけると嬉しいです。


無料メルマガでブログにない情報を配信中。

無料メルマガの登録はこちら