『実践的なデータ解析の手順』 における「4. クラスタリング (クラスター解析) を行う」についてです。なお実行するためのプログラムについてはこちらをご覧ください。
[New] GMMのプログラムを簡単に入手できるようになりました!
それぞれのURLからお求めください!
R: https://note.mu/univprof/n/n4a1efee9dea0
Python: https://note.mu/univprof/n/n0a9fe643a38f
混合ガウスモデル (Gaussian Mixture Model, GMM)
混合ガウスモデル (Gaussian Mixture Model, GMM) は階層型でないクラスタリング手法です。データセットのデータ分布を多変量正規分布の重ね合わせで表現する手法です。
GMMを行うと、サンプルごとに各正規分布の負担率が与えられ、その大きさが各正規分布 (各クラスター) に属する割合になります。クラスタリングを行うときは、負担率の最も大きい正規分布をそのサンプルのクラスターとします。
使う正規分布の数を決めると、その数の正規分布の重ね合わせでデータセットを表現します。正規分布の数がクラスターの数になります。さらに共分散行列の制約も決める必要があります。ただ、正規分布の数や共分散行列の制約はベイズ情報量規準 (Bayesian Information Criterion, BIC) などの指標によって最適化することもできます。つまり解析者が任意にパラメータの値を決めなくてもよいということです。
GMMは以下の手順で行われます。
- 必要に応じて説明変数をオートスケーリングする
オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。 - 正規分布の数 (クラスターの数) を決める
- 共分散行列の制約を決める
共分散を0にする、分散の大きさを一定にする、などの制約の種類があります。
2. の正規分布の数や 3. の共分散行列の制約を変えてGMMを行い、ベイズ情報量規準(Bayesian Information Criterion, BIC) の最も小さい正規分布の数と共分散行列の制約との組み合わせを選択する方法もあります。 - GMMを実行する
- クラスタリングの結果を見える化する
『実践的なデータ解析の手順』 における「2.データを見える化 (可視化) する」でデータセットを見える化し、そこにクラスタリングの結果を表示します。例えばクラスターごとに色を変えてプロットすると見やすいです。
ご案内。
オススメ記事セレクション。
- 20人の学生に対する研究テーマの決め方
- 学会・会議・講演会・勉強会における3つの良い質問と2つの悪い質問
- 大学教員の5つのメリット (とデメリット?)
- 現役データサイエンティストへの『人工知能って怖いの?』に対する回答
- 人工知能との未来における人の役割~現役のデータサイエンティストのメッセージ~
- 集中する時間を確保するために大学教授が行っている8つのこと
twitterでも発信中。
この記事に興味を持っていただけましたら、ぜひフォローをお願いします!
Follow @univprofblog1Tweets by univprofblog1
無料メルマガでブログにない情報を配信中。
データ解析・分析に興味がありましたらぜひ登録をお願いします!
無料メルマガの登録はこちら