2016-6-28_21-41-51_No-00

説明変数 (記述子・特徴量・入力変数) の数を減らすため、相関係数の絶対値の大きい変数の組み合わせの一方を削除することってありますよね。相関係数のしきい値としては、0.99とか0.9とか0.8とかでしょうか。この方法自体は妥当です。似たような変数があっても意味ないですし。

ただ、どっち消すの?

変数Aと変数Bがあって、AとBの相関係数が0.91だったときに、Aを消せばいいの?Bを消せばいいの?

説明しましょう。

他の変数との重複度の大きい変数を消す

まず、AとBについてそれぞれ、他の変数との相関係数の絶対値を計算します。そして、A・Bそれぞれで合計を計算します。合計の大きい方を削除するのです。

なんで?

相関係数の絶対値は、変数間の重複度を表します。値が大きいほど重複度が大きいということです。この相関係数の絶対値の合計というのは、他の変数との重複度を表します。重複していないほうがいいですよね。なので、合計の大きい方の変数を削除します。

Kennard-Stone (KS) アルゴリズムを変数の選択に用いる

他に何かよい方法はないのでしょうか?

一つは、Kennard-Stone (KS) アルゴリズムを変数の選択に適用する方法もいいですよ。距離行列を、1-相関係数の絶対値、とすれば、他の変数と相関係数の絶対値が小さい変数から順に選択してくれます。Kennard-Stone (KS) アルゴリズムについてはこちらの記事をご覧ください。

データ数(サンプル数)が多すぎてデータ解析(分析)するとき時間がかかってどうしようもない!~Kennard-Stone(KS) アルゴリズムによるサンプル選択のススメ~

まとめ

説明変数の数が多いときに相関係数を基準にして変数を削除する方法を説明しました。ぜひ上の方法で事前に説明変数を削除しておき、よりシンプルなデータ解析・分析をするようにしましょう!

ご案内。

オススメ記事セレクション。

twitterでも発信中。

フォローしていただけると嬉しいです。


無料メルマガでブログにない情報を配信中。

無料メルマガの登録はこちら