『実践的なデータ解析の手順』 における「4. クラスタリング (クラスター解析) を行う」についてです。なお実行するためのプログラムについてはこちらをご覧ください。
[New] k-meansのプログラムを簡単に入手できるようになりました!
それぞれのURLからお求めください!
MATLAB: https://note.mu/univprof/n/n641d097c703e
R: https://note.mu/univprof/n/n91f837b4c8fd
Python: https://note.mu/univprof/n/n4a2220a4ac44
k平均法 (k-means clustering)
k平均法 (k-means clustering) は階層型でないクラスタリング手法です。最初にクラスターの数を決めるだけで、全サンプルがそれぞれの属するクラスターの平均に近くなるように、クラスタリングが行われます。
k-meansのメリットは
- アルゴリズムが単純
- 最初にクラスターの数を決めるだけでよい
です。ただし次のようなデメリットもあります。注意してください。
- 最初のクラスターをランダムに決めるため、実行するごとに結果が変わる
- クラスターの数がわからないとき、適切な値を決める方法論がない
- 複雑なクラスターのときには使えない
k-meansは以下の手順で行われます。
- クラスターの数を決める
- 必要に応じて説明変数をオートスケーリングする
オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。 - k-meansによるクラスタリングを行う
- クラスタリングの結果を見える化する
「2.データを見える化 (可視化) する」でデータセットを見える化し、そこにクラスタリングの結果を表示します。例えばクラスターごとに色を変えてプロットすると見やすいです。
ご案内。
オススメ記事セレクション。
- 20人の学生に対する研究テーマの決め方
- 学会・会議・講演会・勉強会における3つの良い質問と2つの悪い質問
- 大学教員の5つのメリット (とデメリット?)
- 現役データサイエンティストへの『人工知能って怖いの?』に対する回答
- 人工知能との未来における人の役割~現役のデータサイエンティストのメッセージ~
- 集中する時間を確保するために大学教授が行っている8つのこと
twitterでも発信中。
この記事に興味を持っていただけましたら、ぜひフォローをお願いします!
Follow @univprofblog1Tweets by univprofblog1
無料メルマガでブログにない情報を配信中。
データ解析・分析に興味がありましたらぜひ登録をお願いします!
無料メルマガの登録はこちら