YUKI86_musimegane15141124_TP_V

こんにちは!大学教員ブロガーのねこしです。

データ解析の手順』における
「2. データを見える化 (可視化) する
についてです。なお実行するためのプログラムについてはこちらをご覧ください。

公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング) : 大学教授のブログ (データ分析相談所)

データセットの見える化・可視化

など、いろいろな見える化・可視化手法がありますが、どれか一つを選んで行うのではなく、データセットごとにたくさんの手法で見える化・可視化した方がよいですよ、という話です。

可視化手法は、異なるアルゴリズム・評価方法・評価値により、多変量データを二次元平面に変換します。それぞれの手法を作った人は、それぞれ自分の持っているデータセットを上手く見える化できるような手法を開発したため、そのようにいろいろな手法が世の中にあるわけです。

ある方法で上手く見える化・可視化できるかは、データセットによって異なるわけです。PCAであなたの持っているデータセットを上手く可視化できるかもしれませんし、PCAでは難しいかもしれません。GTMのほうがよいかもしれません。別のデータセットを持っている方にとっては、PCAのほうがよいかもしれませんし、tSNEのほうがよく可視化してくれるかもしれません。

残念ながら、この見える化・可視化手法がどんなデータでもベスト、というのは存在しないのです。データセットによって手法を使い分けなければなりません。

そもそも、データセットのことがよくわからないのでデータセットを見える化するのですから、事前にこの手法がいいよ、っていうのはわかりません。

そこで、いろいろな手法を試してみて、よく見える化・可視化できている結果を確認する、というのが最善策になります。

複数の見える化・可視化手法を実行できるのプログラムを簡単に入手できます!

それぞれのURLからお求めください!noteでもSPIKEでも言語が同じであれば同じものです。

R: note SPIKE

Python: note SPIKE

見える化・可視化手法の一例です。

  • 主成分分析 (Principal Component Analysis, PCA)
    線形の可視化手法であり、データセットのばらつきが大きい方向に新たな軸を作ることで、少ない軸でより多くの情報を表現できる。よく似た因子分析との違いについてはこちら
  • カーネル主成分分析 (Kernel Principal Component analysis, KPCA)
    PCAとカーネル関数を組み合わせた非線形の可視化手法。ガウシアンカーネルがよく用いられる。
  • 因子分析 (Factor Analysis, FA)
    各変数の線形結合で表されるデータセットの共通因子を抽出する手法。よく似た主成分分析との違いについてはこちら
  • 自己組織化写像 (Self-Organizing Map, SOM)
    ニューラルネットワークの一種。元のデータ空間において近いデータが、二次元マップ上においても近いように学習が行われる。
  • Generative Topographic Mapping (GTM)
    SOMの問題点を解決する形で開発された方法。GTMによって得られた二次元マップ上において近いデータは、元のデータ空間においても近いことが保証されている。
  • 多次元尺度構成法 (Multi Dimensional Scaling, MDS)
    すべてのサンプル間で計算された距離の行列に基づいて、その距離関係がなるべく成り立つように二次元にサンプルを写像する手法。距離として主にユークリッド距離が用いられるが、いろいろな距離や非類似度を用いることで柔軟に可視化できる。
  • Isometric mapping (Isomap)
    MDSではすべてのサンプル間で距離を計算したが、ISOMAPでは近傍のN個のみのサンプル間のみの距離の計算とすることで、局所的な構造を可視化できる。Nを変更することで可視化の結果が変化する。
  • Locally Linear Embedding (LLE)
    あるサンプルが、その近傍のN個のサンプルの線形結合で表現できると仮定し、その線形結合の重みが写像先でも一致するように二次元マップを作る。Nを変更することで可視化の結果が変化する。
  • t-distributed Stochastic Neighbor Embedding (tSNE)
    非線形の可視化手法。見える化・可視化したいデータセットがあり、それを二次元マップ上で確認することが目的。

ここまでお読みいただきありがとうございます。ぜひ上の複数の変数選択手法のプログラムもご活用ください。

これを書いた人

ブログ:http://univprof.com/

note : https://note.mu/univprof

コード・プログラムのショップ : https://spike.cc/shop/univprof

twitter:https://twitter.com/univprofblog1

ぜひフォローをお願い致します。

データ解析の質問 募集中!

こちらへお願いします!

ご案内。

オススメ記事セレクション。

twitterでも発信中。

この記事に興味を持っていただけましたら、ぜひフォローをお願いします!