SnapCrab_2017-3-2_17-35-18_No-00

こんにちは!大学教員ブロガーのねこしです。

データ解析の手順』における
「2. データを見える化 (可視化) する
についてです。なお実行するためのプログラムについてはこちらをご覧ください。

公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング) : 大学教授のブログ (データ分析相談所)

LLEを実行できるプログラムを簡単に入手できます!

それぞれのURLからお求めください!noteでもSPIKEでも言語が同じであれば同じものです。

R: note SPIKE

Python: note SPIKE

Locally Linear Embedding (LLE)

Locally Linear Embedding(LLE)もIsometric Mapping(Isomap)と考え方は同じで、距離の近いサンプルは見える化・可視化したあとも(2次元平面上でも)近くなるようにしよう、というものです。

ただそのための方法が違います。Isomapではサンプルごとに最も近いN個のサンプル間の距離の関係が2次元平面上でも同じになるようにしていましたが、LLEではサンプルごとに最も近いN個のサンプルの線形結合で表現できると仮定し、その線形結合の重みが2次元平面上でも同じになるようにします。これによって、サンプルごとに局所的な関係が成り立つように可視化できるわけです。

LLEの最初のLはLocallyのLであり、”局所的に”という意味です。またLLEの二つ目のLはLinearのLで線形という意味ですが、LLEは非線形の可視化手法です。LLEではサンプルごとに最も近いN個のサンプルの”線形”結合で表現できると仮定することから、”Linear”となっています。

LLEは以下の手順で行います。

  1. Nの値を決める
    最初は5とか10とかがよいです。
  2. 必要に応じてオートスケーリングを行う
    オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。特別な理由がない限りは行うようにしましょう。
  3. LLEを実行する
  4. 二次元のマップ上でサンプルの位置関係を確認する
    思うように見える化・可視化されなかったら、Nを変えるとよいです。

ここまでお読みいただきありがとうございます。ぜひ上のLLEのプログラムもご活用ください。プログラムは上の順序で実行するようになっていますので、1.のNを変更することで、色々なNでLLEが可能になります。

これを書いた人

ブログ:http://univprof.com/

note : https://note.mu/univprof

コード・プログラムのショップ : https://spike.cc/shop/univprof

twitter:https://twitter.com/univprofblog1

ぜひフォローをお願い致します。

データ解析の質問 募集中!

こちらへお願いします!

ご案内。

オススメ記事セレクション。

twitterでも発信中。

この記事に興味を持っていただけましたら、ぜひフォローをお願いします!