『データ解析の手順』 における「2.データを見える化(可視化)する」についてです。なお実行するためのプログラムについてはこちらをご覧ください。
[New] tSNEのプログラムを簡単に入手できるようになりました!
それぞれのURLからお求めください!
R: https://note.mu/univprof/n/nc18b0f9a5752
Python: https://note.mu/univprof/n/ncbe4e51a91bd
t-distributed Stochastic Neighbor Embedding (tSNE)
t-distributed Stochastic Neighbor Embedding (tSNE) は非線形の可視化手法です。一つ重要なこととして、tSNEはデータセットの見える化・可視化に特化した手法です。見える化・可視化したいデータセットがあり、それを二次元マップ上で確認することが目的です。モデル構築用データ・検証用データといった概念はありません。
tSNEは以下の手順で行われます。
- 必要に応じてオートスケーリングを行う
tSNEはサンプル間のユークリッド距離にもとづきます。オートスケーリングしてからの距離のほうがよいときにはオートスケーリングをしてください。
オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。 - Perplexity を設定する
Perplexityは、サンプルごとに、どのくらい周辺のサンプルを見える化・可視化したあとも近いサンプルとして扱うか、に対応します。5から50までの値が推奨されています。 - tSNEにより見える化・可視化する
これだけです。見える化・可視化の結果としてあまりサンプルが分散していないときや、見える化・可視化した結果に違和感があるときはperplexityの値を変更して再度tSNEを実行しましょう。
注意しなければならないこととして、tSNEには、PCAのローディングやGTMの重みW・βのようなモデルは存在しません。そこで、新しいサンプルを含めた見える化・可視化をしたいときは、最初のデータセットに新しいサンプルを追加して再度tSNEを実行する必要があります。
ご案内。
- 実践的なデータ解析の手順
- データ解析の手順の各段階における手法
- 公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング)
- 主成分分析(PCA)の進化する入門書・実践書~数式なしの導入から実践的応用・結果の解釈まで~(随時更新)
- 20人の学生に対する研究テーマの決め方
オススメ記事セレクション。
- 大学教員の5つのメリット (とデメリット?)
- 現役データサイエンティストへの『人工知能って怖いの?』に対する回答
- 人工知能との未来における人の役割~現役のデータサイエンティストのメッセージ~
- 集中する時間を確保するために大学教授が行っている8つのこと
- 風邪を引かないために大学教授が毎日行っている7つの方法
twitterでも発信中。
Tweets by univprofblog1無料メルマガでブログにない情報を配信中。
無料メルマガの登録はこちら