2016-06-07_05h08_47

データ解析の手順』 における「2.データを見える化(可視化)する」についてです。なお実行するためのプログラムについてはこちらをご覧ください。

公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング) : 大学教授のブログ

[New] tSNEのプログラムを簡単に入手できるようになりました!

それぞれのURLからお求めください!

R: https://spike.cc/shop/univprof/products/Gv9ursDp

Python: https://spike.cc/shop/univprof/products/CAzZUYfv

t-distributed Stochastic Neighbor Embedding (tSNE)

t-distributed Stochastic Neighbor Embedding (tSNE) は非線形の可視化手法です。一つ重要なこととして、tSNEはデータセットの見える化・可視化に特化した手法です。見える化・可視化したいデータセットがあり、それを二次元マップ上で確認することが目的です。モデル構築用データ・検証用データといった概念はありません

tSNEは以下の手順で行われます。

  1. 必要に応じてオートスケーリングを行う
    tSNEはサンプル間のユークリッド距離にもとづきます。オートスケーリングしてからの距離のほうがよいときにはオートスケーリングをしてください。
    オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。
  2. Perplexity を設定する
    Perplexityは、サンプルごとに、どのくらい周辺のサンプルを見える化・可視化したあとも近いサンプルとして扱うか、に対応します。5から50までの値が推奨されています。
  3. tSNEにより見える化・可視化する

これだけです。見える化・可視化の結果としてあまりサンプルが分散していないときや、見える化・可視化した結果に違和感があるときはperplexityの値を変更して再度tSNEを実行しましょう。

注意しなければならないこととして、tSNEには、PCAのローディングやGTMの重みW・βのようなモデルは存在しません。そこで、新しいサンプルを含めた見える化・可視化をしたいときは、最初のデータセットに新しいサンプルを追加して再度tSNEを実行する必要があります。

ご案内。

オススメ記事セレクション。

twitterでも発信中。

無料メルマガでブログにない情報を配信中。

無料メルマガの登録はこちら