_shared_img_thumb_MAX85_searchsa20140531_TP_V

見える化・可視化の手法にはいろいろあります。具体的には、いくつもの手法の例をこちらに記載しました。

基本的な手法は主成分分析 (Principal Component Analysis, PCA) ですが、それ以外にもカーネルPCA・自己組織化写像 (Self-Organizing Map, SOM)・Generative Topographic Map (GTM)・Stochastic Neighbor Embedding (SNE) などで検討する方もいらっしゃると思います。

これらの手法の結果を解釈するときに、考えなければならないことがあります。

たった一つです。

それは・・・

可視化したときにデータ間の位置関係が保持されているか

もう少し丁寧に説明します。

今、多変量・多次元のデータを二次元の平面に写像 (見える化・可視化) することを考えます。

完璧に写像されているということは、すべてのデータにおいて、

  • ① 多次元空間において近いデータは、二次元平面でも近い
  • ② 二次元平面で近いデータは、多次元空間においても近い

の2つをすべて満たしていることに対応します。ちなみに、『多次元空間において遠いデータは、二次元平面でも遠い』は②の、『二次元平面で遠いデータは、多次元空間においても遠い』は①の、それぞれ逆説ですので同じ意味を表します。

しかし残念ながら、①と②の両方を理論的に満たしている手法はありません。

例えば、

  • PCAは①を満たしていますが、②は満たしていません。
  • SOMは①も②も満たしていません。
  • GTMは②を満たしていますが、①は満たしていません。

そこで、PCAによって得られた二次元平面上のデータを見るとき、多次元空間において近いデータはすべて二次元平面でも近い、ということができます。しかし、二次元平面上で近いデータであっても、実際の多次元空間上では遠い可能性があることを考えなければなりません。

SOMによって得られた二次元平面上のデータを見るとき、二次元平面上で近いデータであっても実際の多次元空間上では遠い可能性や、二次元平面上で遠いデータであっても実際の多次元空間上では近い可能性があることを考える必要があります。

GTMによって得られた二次元平面上のデータを見るとき、二次元平面において近いデータはすべて多次元空間でも近い、ということができます。しかし、多次元空間上で近いデータであっても、実際の二次元平面上では遠い可能性があります。

このように見える化・可視化を行うときは、①や②を満たすかどうか考えてから、二次元平面に写像されたデータを確認・検討・考察しなければなりません。