2016-05-21_23h53_43

そもそもモデルの逆解析とは、順解析に対する逆解析です。

順解析とは、説明変数の値をモデルに入力して、目的変数の値を推定することです。

逆解析とはその逆に、目的変数の値を入力して説明変数の値を推定することです。

特に、望ましい目的変数の値を達成するための説明変数の値を求める、いろいろな設計問題を解くときに使用します。


一般的な逆解析とPLSを用いたときの逆解析はまったく異なります。PLSを用いたときの逆解析は、普通の逆解析と比べて格段に効率的になります。

逆解析の方法はいろいろありますが、今回はグリッドサーチを用いることを想定します。

一般的な逆解析

いわゆるグリッドサーチによる逆解析です。

もちろん、回帰モデルもしくはクラス分類モデルが構築してあることが前提です。

まず、各説明変数について以下のAかBをして、値の候補を決めます。

  • A. 上限・下限、そして上限・下限の間をいくつに区切るかを設定する
  • B. 任意に値を設定する

全説明変数においてそれぞれの説明変数の値の候補が得られましたので、次にそれらの候補のすべての組み合わせを作成します。つまりこれらは仮想的なサンプルになります。

たとえば説明変数の数が10であり、それぞれの説明変数に5個ずつ候補があると (実際には説明変数ごとに候補の数が異なっても構いません)、すべての組み合わせは510で9765625の組み合わせになります。つまり9765625の仮想的なサンプルが作られます。

特に説明変数の数が多いときなど、各説明変数の候補の数が大きくなるとすべての組み合わせの数が爆発的に増えますので注意です。

これらの仮想的なサンプルを回帰モデルもしくはクラス分類モデルに入力して目的変数の推定値を計算します。

最後に、推定値が望ましいものに対応する仮想的なサンプル、つまり説明変数の値の組のセット、を取り出します。

PLSを用いたときの逆解析

上で説明した逆解析は一般的な話ですので、PLSを用いたときでも同じように計算できます。

まず、一般的な逆解析には以下の問題があります。

  1. 変数の数や候補の数が多くなると、組み合わせによって得られる仮想的なサンプルが膨大になってしまう
  2. 仮想的なサンプルが、回帰モデルやクラス分類モデルを構築したデータからかけ離れてしまう。

1. について、使っているパソコンの性能にも依存しますが、なるべく仮想的なサンプル数を減らしたいのが現状です。

2. について、回帰モデルやクラス分類モデルが統計的なモデルである以上、モデルの信頼性はモデルを構築するときに用いたデータセットに依存します。つまり、そのデータセットから遠いサンプルに対しては、もちろんそれをモデルに入力することはできますが、その結果推定された値は信頼できません。

各説明変数の上限・下限を元のデータセットの最大値・最小値の付近に設定したとしても、仮想的なサンプルには、モデルを構築したときのデータセットから離れたサンプルも多くありますが、逆解析のときにそのような推定値の信頼性については考慮されていません

PLSをうまく活用した逆解析を行うことで 1. 2. の問題を、ある程度ですが改善できます。

まず、各説明変数には値の候補を設定しません。主成分軸に設定します。つまり、PLSの最適成分数までの主成分を用いて、各主成分において値の候補を決めます。候補の決め方については『一般的な逆解析』における A. もしくは B. の方法と同じであり、その後の仮想的なサンプルの求め方や目的変数の値の推定も同じです。

一般的な逆解析と同じく、望ましい目的変数の値を推定した主成分の値の組のセットが得られます。そして、ローディングベクトルを用いて、主成分の値の組のセットから、説明変数の値の組のセットに変換できます。

このメリットとして、説明変数から次元を落とした (変数の数を減らした) 主成分において仮想的なサンプルを計算しているため、組み合わせの数を減らすことができます。よって 1. の問題を軽減できます。

もう一つのメリットとして、説明変数のすべての領域ではなく主成分軸におけるすべての領域のみから仮想的なサンプルが生成されているため、モデルを構築したときのデータセットから遠いサンプルは生成されにくくなります

以上により、PLSを用いたときにうまく逆解析を行うこと効率化を達成できます

PLSを用いて逆解析を行うときは、みなさんもPLSをしっかりと利用した逆解析を行いましょう