2016-7-16_22-16-17_No-00

実践的なデータ解析の手順』 における「4. クラスタリング (クラスター解析) を行う」についてです。Affinity Propagation (AP) は階層型でないクラスタリング手法です。なお実行するためのプログラムについてはこちらをご覧ください。

公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング) : 大学教授のブログ

[New] APのプログラムを簡単に入手できるようになりました!

それぞれのURLからお求めください!

R: https://spike.cc/shop/univprof/products/9ooIaw1i

Python: https://spike.cc/shop/univprof/products/whGmRJ6v

Affinity Propagation (AP)

APは事前にクラスターの数を決める必要がない、というメリットがあります。

ただ、damping factor と preference というパラメータを設定しなければなりません。クラスタリングの結果を見ながら試行錯誤が必要です。またAPは他の方法と比べて計算時間が多くかかります。

APは以下の手順で行われます。

  1. 必要に応じて説明変数をオートスケーリングする
    オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。
  2. preferenceの値を決める
    クラスターの中心の数に関係します。最初は類似度行列の中央値として設定して計算してみましょう。類似度として、負のユークリッド距離が基本的に用いられます。
  3. damping factorの値を決める
    0から1の間で設定できます。最初は0.5で計算し、結果が安定しないときは値を大きくしましょう。
  4. APを実行する
  5. クラスタリングの結果を見える化する
    「2.データを見える化 (可視化) する」でデータセットを見える化し、そこにクラスタリングの結果を表示します。例えばクラスターごとに色を変えてプロットすると見やすいです。

ご案内。

オススメ記事セレクション。

twitterでも発信中。

この記事に興味を持っていただけましたら、ぜひフォローをお願いします!


無料メルマガでブログにない情報を配信中。

データ解析・分析に興味がありましたらぜひ登録をお願いします!
無料メルマガの登録はこちら