データ解析の手順』 における
「3.外れ値処理・変数処理・ノイズ処理を行う」についてです。

外れ値の候補を見つける方法の一つは3シグマ法です。
これは各変数のデータの分布 が正規分布に従うと仮定し、
平均値から標準偏差の3倍離れたデータを外れ値の候補とする方法です。
本当に正規分布に従う場合は、
平均値から標準偏差の3倍離れたデータは0.003%しかなく、
効率的に外れ値の候補を探せます。

しかし、ある変数に外れ値があると、
平均値や標準偏差がその外れ値に影響を受けてしまうため、
3シグマ法では適切に外れ値候補を探すことが、
難しくなってしまいます。
そこで、平均値の代わりに中央値、
標準偏差の代わりに中央絶対偏差の 1.4826倍が使われます。


さらに、「2.データを見える化 (可視化) する」において、
主成分分析などでデータを二次元に写像した図を見て、
外れ値の候補を決めることもできます。

独立成分分析によって得られた独立成分は、
普通の変数と比較して外れ値の候補が表れやすいです。
独立成分分析を行った後に、
中央値と中央絶対偏差の1.4826倍によって、
外れ値候補を検出することもできます。

以上の方法により検出された外れ値の候補を確認し、
最終的に外れ値として除去すべきデータを決めます。