2016-8-3_19-27-49_No-00

データ解析の手順』 における「3. 外れ値処理・変数処理・ノイズ処理を行う」についてです。なお実行するためのプログラムについてはこちらをご覧ください。

公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング) : 大学教授のブログ

主成分分析 (principal component analysis, PCA) からのT2統計量・二乗予測誤差 (Squared Prediction Error, SPE) (もしくはQ統計量) により外れ値・異常サンプルを検出することができます。正常なデータのみからモデルを作ることで、新しいデータの正常・異常を判定することもできます。

詳細についてはこちらのをご覧ください。
主成分分析(PCA)の進化する入門書・実践書~数式なしの導入から実践的応用・結果の解釈まで~(随時更新)

T2統計量・SPEによる外れ値・異常データの検出は下の手順で行われます。

  1. PCAにおける累積寄与率のしきい値を決める
    PCAで使用する主成分の数は、累積寄与率がこの値を超える最初の成分数とします。たとえば、しきい値を95%とすることで、5%をノイズとみなして除去することができます。
  2. オートスケーリングをする
    オートスケーリングとは各変数から平均値を引いて平均を0にするセンタリングと、各変数を標準偏差で割って標準偏差を1にするスケーリングを両方行うことです。スケーリングは任意ですが、センタリングは必ず行いましょう。
  3. PCAを実行して主成分スコアとローディングを得る
  4. 1. のしきい値から使用する主成分数を決める
  5. T2・SPEの値を計算する
  6. T2・SPEのしきい値を計算する
    たとえば、T2・SPEそれぞれ、PCAを行なったデータセットの99.7%が含まれる値とします (https://note.mu/univprof/n/n8a88c35039c9)。
  7. [新しいデータの推定をするとき] 新しいサンプルから2. のオートスケーリングしたときの平均値を引き、標準偏差で割る
  8. [新しいデータの推定をするとき] 上の3.4.5.の結果から、新しいサンプルのT2・SPEの値を計算する
  9. [新しいデータの推定をするとき] T2・SPEを、上の6.のしきい値と比べ、T2・SPEのどちらか一方でもしきい値を超えたら、外れ値・異常なサンプルと判定する

ご案内。

オススメ記事セレクション。

twitterでも発信中。

この記事に興味を持っていただけましたら、ぜひフォローをお願いします!


無料メルマガでブログにない情報を配信中。

データ解析・分析に興味がありましたらぜひ登録をお願いします!
無料メルマガの登録はこちら