2016-7-5_21-46-55_No-00

実践的なデータ解析の手順』 における「4. クラスタリング (クラスター解析) を行う」についてです。なお実行するためのプログラムについてはこちらをご覧ください。

公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング) : 大学教授のブログ

[New] DBSCANのプログラムを簡単に入手できるようになりました!

それぞれのURLからお求めください!

R: https://spike.cc/shop/univprof/products/fPdxWZdj

Python: https://spike.cc/shop/univprof/products/wMSUmuMl

Density-Based Spatial Clustering of Applications with Noise (DBSCAN)

Density-Based Spatial Clustering of Applications with Noise (DBSCAN) はデータ密度に基づくクラスタリング手法です。データが固まって分布していると一つのクラスターとして認識してくれるので直感的に理解しやすいです。

またscikit-learnのclusteringのページでいろいろなクラスタリング手法の比較をしてまして、二次元のデータにおける結果のみですが、DBSCANはその中でも良さそうな結果です。

ただDBSCANではEpsとMinPtsという二つのパラメータを最初に決めなければなりません。DBSCANの最初の論文では、二次元のデータセットをクラスタリングするとき、MinPts=4を推奨しています。

DBSCANは以下の手順で行われます。

  1. EpsとMinPtsとの値を決める
    二次元のデータセットをクラスタリングするときは、MinPtsを4とするとよいです。あとは値を変えて結果を確認する、といった試行錯誤が必要です。
  2. 必要に応じて説明変数をオートスケーリングする
    オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。
  3. DBSCANを行う
  4. クラスタリングの結果を見える化する
    「2.データを見える化 (可視化) する」でデータセットを見える化し、そこにクラスタリングの結果を表示します。例えばクラスターごとに色を変えてプロットすると見やすいです。

ご案内。

オススメ記事セレクション。

twitterでも発信中。

フォローしていただけると嬉しいです。


無料メルマガでブログにない情報を配信中。

無料メルマガの登録はこちら