2016-05-22_07h22_56

多次元 (多変量) のデータセットにおいて、複数の変数 (特徴量・記述子) を考慮して外れ値を見つけたい!

このようなときに有効なのは、主成分分析 (Principal Component Analysis, PCA) のあとに計算できるT2統計量や二乗予測誤差 (Squared Prediction Error, SPE) (Q統計量) による方法です。

T2統計量・SPEのどちらか値が大きいサンプルは外れ値とみなされます。これらの統計量は部分的最小二乗法 (Partial Least Squares, PLS) でも計算できます

PLSにより、目的変数を考えた上での外れ値を見つけることができます。

T2統計量

PLSのT2統計量は、PLSによって得られる各主成分をスケーリングしたあとの (それぞれの標準偏差で割ったあとの)、原点からのユークリッド距離のことです。原点からの距離が大きいとき、つまりT2統計量の値が大きいときに、そのサンプルはデータセットの分布から外れています

SPE (Q統計量)

T2統計量によって、最適成分数までの主成分軸で表現されるデータ空間における分布からのサンプルの外れ具合は表現できます。しかし最適成分数よりあとの、考慮されていない主成分軸でのデータセットの分布は考慮されていません。そこで最適成分数より後のすべての主成分軸での空間における、原点からの距離であるSPE (Q統計量) を用いて、そのようなデータ空間での外れ値を見つけます。SPE (Q統計量) の値が大きいときに、そのサンプルは外れ値になります。

T2統計量とSPEのしきい値は?

それぞれ、データセットの99.7%が含まれる値をしきい値とするのが一般的です。99.7%というのは3シグマ法に由来します。たとえば、データセットに1000個のサンプルがあるとします。T2統計量の値を小さい順に並び替え、その997番目の値をT2統計量のしきい値とします。SEPについても同じです。

外れたサンプルを見つけたあとは?

基本的に外れ値を欠損値とみなしてこちらのように対処します。

たとえば、外れたサンプルを削除したりして、外れたサンプルの対処をしたあとを考えます。このあと、もう一度PLSを行いましょう。なぜなら最初のPLSはデータセットの中に外れたサンプルがある中で行われており、主成分軸はその外れたサンプルの影響を受けているためです。

外れたサンプルを対処した今、再度PLSを行うことで、より正しく解析できる可能性があります。

再度PLSを行った結果、あらためて外れたサンプルが見つかる可能性もあります。

目的変数があるときは、ぜひPLSで外れ値を見つけましょう!