2016-7-19_21-56-58_No-00

データ解析・分析によって、データセットの中の外れ値・異常なサンプルを検出することができます。たとえば、たくさんのスペクトルデータの中から測定に失敗したサンプルを検出したり、多くの画像データの中から撮影に失敗した画像を検出したり、装置の運転データの中から異常な運転時のデータを検出したりできます。

検出の方法

一つのやり方としては、データセット内の各サンプルの周辺のデータ密度を計算し、その値が小さいサンプルを外れ値・異常サンプルとする方法があります。たとえば、k最近傍法 (k-Nearest Neighbor, kNN) やOne-Class Support Vector Machine (OCSVM) が使われます。

もう一つの方法はクラスタリングです。基本的にいくつものサンプルで一つのクラスター (かたまり) を形成しますが、1つのサンプルで1つのクラスターを形成するものもあります。これを外れ値・異常サンプルとして検出します。

診断はさらに難しい

上の方法を使えば、「このサンプルは、他のサンプルと比べて違う」といった外れ値・異常サンプルを検出することができます。しかし、

  • 外れ値・異常サンプルとしてどういう特徴をもっているのか?
  • どうして外れ値・異常サンプルなのか?

といった、外れ値・異常サンプルの診断を行うことは難しいのです。

体調が悪いことは分かっても、病名は分からない

みなさんの身の回りにも、検出はできても診断は難しい例はあります。

朝起きて、体調が悪いときってありますよね。なんか調子が悪い。そのとき、体調が悪いことを検出できても、なぜ悪いのか、どんな病気なのかまでは基本的には分かりません。咳が出たり、鼻水が出たりしたら、風邪かな、と推定することはできます。しかし、熱が出たときに風邪とは限りませんし、お腹が痛いときにはいろいろな病気の可能性があります。検出ができても診断は難しいんです。

お医者さんはどのように診断しているか

みなさんも、自分で体調不良の原因がわからないときは、お医者さんに診てもらうと思います。そこで、お医者さんは、あなたにいろいろと症状について質問するわけです。食欲はあるか、体のどこが痛いか、吐き気はあるか、など。そして、過去の患者 (そのお医者さんが診ていない人も含む) の中で、同じ (もしくはとても良く似た) 症状になった人を探し、その人の病気と同じだろうと判断するわけです。

診断には過去の外れ値・異常サンプルの情報が必要

データ解析・分析でも、基本的に同じ手順で外れ値・異常サンプルの診断を行います。つまり、お医者さんが過去の患者データを参考にしたように、これまでの外れ値・異常サンプルのデータが必要になります。検出された外れ値・異常サンプルは、過去のどの外れ値・異常サンプルと似ているか、調べるわけです。そして類似している外れ値・異常サンプルと同じ特徴をもっていて、同じ原因で外れ値・異常サンプルになったと判断します。

サンプル間でどれくらい似ているかの指標としては、こちらの「4. クラスタリング (クラスター解析) を行う *類似度に関連する指標」をご覧ください。

このように、外れ値・異常サンプルの診断には、過去の外れ値・異常サンプルがとても大事になります。外れ値・異常サンプルとして検出したあとに削除してしまうのではなく、しっかりとどこかに保存しておいてください

まとめ

外れ値・異常サンプルの検出方法を説明し、検出より診断がとても難しいことを指摘したあとに、診断の方法を述べました。重要なことは、基本的に診断にはこれまでの外れ値・異常サンプルが必要ということです。外れ値・異常サンプルといって捨ててしまうのではなく、ちゃんととっておきましょう。

ご案内。

オススメ記事セレクション。

twitterでも発信中。

この記事に興味を持っていただけましたら、ぜひフォローをお願いします!


無料メルマガでブログにない情報を配信中。

データ解析・分析に興味がありましたらぜひ登録をお願いします!
無料メルマガの登録はこちら