『実践的なデータ解析の手順』 における「4. クラスタリング (クラスター解析) を行う」についてです。なお実行するためのプログラムについてはこちらをご覧ください。
[New] DBSCANのプログラムを簡単に入手できるようになりました!
それぞれのURLからお求めください!
R: https://note.mu/univprof/n/n7deb16ecf162
Python: https://note.mu/univprof/n/n91a73a9ceec9
Density-Based Spatial Clustering of Applications with Noise (DBSCAN)
Density-Based Spatial Clustering of Applications with Noise (DBSCAN) はデータ密度に基づくクラスタリング手法です。データが固まって分布していると一つのクラスターとして認識してくれるので直感的に理解しやすいです。
またscikit-learnのclusteringのページでいろいろなクラスタリング手法の比較をしてまして、二次元のデータにおける結果のみですが、DBSCANはその中でも良さそうな結果です。
ただDBSCANではEpsとMinPtsという二つのパラメータを最初に決めなければなりません。DBSCANの最初の論文では、二次元のデータセットをクラスタリングするとき、MinPts=4を推奨しています。
DBSCANは以下の手順で行われます。
- EpsとMinPtsとの値を決める
二次元のデータセットをクラスタリングするときは、MinPtsを4とするとよいです。あとは値を変えて結果を確認する、といった試行錯誤が必要です。 - 必要に応じて説明変数をオートスケーリングする
オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。 - DBSCANを行う
- クラスタリングの結果を見える化する
「2.データを見える化 (可視化) する」でデータセットを見える化し、そこにクラスタリングの結果を表示します。例えばクラスターごとに色を変えてプロットすると見やすいです。
ご案内。
- 実践的なデータ解析の手順
- データ解析の手順の各段階における手法
- 公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング)
- 主成分分析(PCA)の進化する入門書・実践書~数式なしの導入から実践的応用・結果の解釈まで~(随時更新)
- 20人の学生に対する研究テーマの決め方
オススメ記事セレクション。
- 大学教員の5つのメリット (とデメリット?)
- 現役データサイエンティストへの『人工知能って怖いの?』に対する回答
- 人工知能との未来における人の役割~現役のデータサイエンティストのメッセージ~
- 集中する時間を確保するために大学教授が行っている8つのこと
- 風邪を引かないために大学教授が毎日行っている7つの方法
twitterでも発信中。
フォローしていただけると嬉しいです。
Follow @univprofblog1Tweets by univprofblog1
無料メルマガでブログにない情報を配信中。
無料メルマガの登録はこちら