2016-8-15_10-58-22_No-00

データ解析の手順』 における「2.データを見える化(可視化)する」についてです。

[New] PCAのプログラムを簡単に購入できるようになりました!

PCAのプログラムが、MATLAB・R・Python個別に購入できるようになりました。以下のURLからぜひご購入ください!

MATLAB: https://spike.cc/shop/univprof/products/NI80quJg

R: https://spike.cc/shop/univprof/products/BBzh2evS

Python: https://spike.cc/shop/univprof/products/Z5Z8LsZf

ちなみにnoteはこちらです。
https://note.mu/univprof/n/n2cc76b31b8f9
ぜひご活用ください。

主成分分析 (Principal Component nalysis, PCA)

主成分分析 (Principal Component Analysis, PCA) は、広く知られた分析方法ですが、意外と、どういう手順で行えばよいか、何に気をつければよいか、結果をどう見ればよいか、知らない方もいます。

ここではそのような疑問にすべて答える形でPCAについて説明します。

なおより詳細にPCAについて知りたい方は、こちらのPCAの教科書をオススメします!

https://note.mu/univprof/n/n8a88c35039c9

PCAは以下の手順で行います。

  1. オートスケーリング (=センタリング+スケーリング)する
    オートスケーリングとは、センタリングとスケーリングを行うことです。
    センタリングとは、変数ごとにその変数の平均を引いて、平均を0にする操作です。最初にセンタリングをしなければならないことは、非常に重要ですが、意外と、あまり他には書かれていません。PCAは軸の回転であるため、センタリングしてデータ分布の中心を0にしないと上手くいきません。
    スケーリングとは、変数ごとにその変数の標準偏差で割って、標準偏差を1にする操作です。スケーリングは任意ですが基本的には実行することが望ましいです。
  2. PCAを実行して、スコアとローディングを得る
  3. 成分数ごとの寄与率や累積寄与率を確認する
    寄与率が各主成分の持つ情報量を表します。第一主成分や第二主成分で寄与率が高いと、データの見える化がやりやすいです。
  4. 第一主成分軸 vs. 第二主成分軸 のプロットを確認する
    最も情報量の大きい二軸で確認します。この際に、各軸の寄与率もしっかりと示します。
  5. 第一主成分軸 vs. 第三主成分軸 のプロットを確認する
    第二主成分軸までで情報量が不十分な場合は、第三主成分も確認します。寄与率によっては第四主成分以降も確認します。
    どの程度の寄与率であれば情報量が十分か判断するため、最初のデータセットにノイズがどの程度含まれるかが参考になります。例えば5%くらいがノイズであると考えられる場合は、累積寄与率が 95%程度であれば十分です。
  6. これ以降の解析でも主成分軸を使用する場合は、使用する主成分軸の数を決める
    累積寄与率を見ながら使用する主成分軸の数を決めます。たとえば最初のデータセットには5%くらいノイズが含まれると考えられるときは、累積寄与率が95%になるまでの主成分軸を使用することで、それ以降の軸はノイズとして除去することができます。

PCAのプログラムは、データを準備するだけでPCAが可能になるのものがこちらにあります。ぜひご購入ください!

MATLAB: https://spike.cc/shop/univprof/products/NI80quJg

R: https://spike.cc/shop/univprof/products/BBzh2evS

Python: https://spike.cc/shop/univprof/products/Z5Z8LsZf


ご案内。

オススメ記事セレクション。

twitterでも発信中。

この記事に興味を持っていただけましたら、ぜひフォローをお願いします!


無料メルマガでブログにない情報を配信中。

データ解析・分析に興味がありましたらぜひ登録をお願いします!
無料メルマガの登録はこちら