2016-7-13_21-3-33_No-00

実践的なデータ解析の手順』 における「4. クラスタリング (クラスター解析) を行う」についてです。なお実行するためのプログラムについてはこちらをご覧ください。

公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング) : 大学教授のブログ

[New] k-meansのプログラムを簡単に入手できるようになりました!

それぞれのURLからお求めください!

MATLAB: https://spike.cc/shop/univprof/products/ZWJCzUV5

R: https://spike.cc/shop/univprof/products/AgjAouhm

Python: https://spike.cc/shop/univprof/products/pry9IfNh

k平均法 (k-means clustering)

k平均法 (k-means clustering) は階層型でないクラスタリング手法です。最初にクラスターの数を決めるだけで、全サンプルがそれぞれの属するクラスターの平均に近くなるように、クラスタリングが行われます

k-meansのメリット

  • アルゴリズムが単純
  • 最初にクラスターの数を決めるだけでよい

です。ただし次のようなデメリットもあります。注意してください。

  • 最初のクラスターをランダムに決めるため、実行するごとに結果が変わる
  • クラスターの数がわからないとき、適切な値を決める方法論がない
  • 複雑なクラスターのときには使えない

k-meansは以下の手順で行われます。

  1. クラスターの数を決める
  2. 必要に応じて説明変数をオートスケーリングする
    オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。
  3. k-meansによるクラスタリングを行う
  4. クラスタリングの結果を見える化する
    「2.データを見える化 (可視化) する」でデータセットを見える化し、そこにクラスタリングの結果を表示します。例えばクラスターごとに色を変えてプロットすると見やすいです。

ご案内。

オススメ記事セレクション。

twitterでも発信中。

この記事に興味を持っていただけましたら、ぜひフォローをお願いします!


無料メルマガでブログにない情報を配信中。

データ解析・分析に興味がありましたらぜひ登録をお願いします!
無料メルマガの登録はこちら