2016-06-21_21h46_39

データ解析の手順』 における「2.データを見える化(可視化)する」についてです。なお実行するためのプログラムについてはこちらをご覧ください。

公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング) : 大学教授のブログ

[New] ICAのプログラムを簡単に入手できるようになりました!

それぞれのURLからお求めください!

R: https://spike.cc/shop/univprof/products/nrc3Mkkd

Python: https://spike.cc/shop/univprof/products/oKMAjge6

独立成分分析 (Independent Component Analysis, ICA)

線形の見える化・可視化手法として、主成分分析 (Principal Component Analysis, PCA) が有名ですね。PCAにより、あるデータセットから、互いに無相関な成分を計算できます。独立成分分析 (Independent Component Analysis, ICA) では、無相関よりさらに強力な概念である『独立』な成分 (独立成分) を計算できます。ちなみに、PCAはICAの前処理として使われます。

ICAを体感できる身近な例として、カクテルパーティー効果が知られています。パーティー会場では、音楽や話し声などのいろいろな音の中でも、それらの雑音に煩わされることなく目的の人と話をすることができます。このように、人間の耳では重なり合った複数の音の中から特定の音を選んで識別できます。これがカクテルパーティー効果です。ICAはカクテルパーティー効果を実現している、といえます。

ICAは下の手順で行われます。

  1. センタリングする
    つまり、変数ごとにその変数の平均を引いて、平均を0にします。
    ICAはPCAと同じで軸の回転であるため、センタリングしてデータ分布の中心を0にしないと上手くいきません。
  2. スケーリングする
    つまり、変数ごとにその変数の標準偏差で割って、標準偏差を1にします。これは任意ですが基本的には実行することが望ましいです。
  3. 計算する成分数を決める
    単純なのは、与えられたデータセットの行列の階数 (ランク) とする方法です。もしくは、PCAを実行して累積寄与率がいくつまでの成分数、という決め方もあります。もちろん手動で設定してもOKです。
  4. ICAを実行して独立成分を計算する

ICAにおける注意点

PCAでは、寄与率の大きい順に第一主成分、第二主成分、・・・となっていました。しかしICAで計算される独立成分の間には、優劣はありません。いくつかの独立主成分のみ使いたいときは、自分で独立成分を選ばなければなりません。この辺りがICAを使うときの難しいポイントです。

ご案内。

オススメ記事セレクション。

twitterでも発信中。

フォローしていただけると嬉しいです。


無料メルマガでブログにない情報を配信中。

無料メルマガの登録はこちら