2016-7-20_21-33-46_No-00

実践的なデータ解析の手順』 における「4. クラスタリング (クラスター解析) を行う」についてです。なお実行するためのプログラムについてはこちらをご覧ください。

公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング) : 大学教授のブログ

[New] GMMのプログラムを簡単に入手できるようになりました!

それぞれのURLからお求めください!

R: https://spike.cc/shop/univprof/products/4oU6upGu

Python: https://spike.cc/shop/univprof/products/H8c1AiyV

混合ガウスモデル (Gaussian Mixture Model, GMM)

混合ガウスモデル (Gaussian Mixture Model, GMM) は階層型でないクラスタリング手法です。データセットのデータ分布を多変量正規分布の重ね合わせで表現する手法です。

GMMを行うと、サンプルごとに各正規分布の負担率が与えられ、その大きさが各正規分布 (各クラスター) に属する割合になります。クラスタリングを行うときは、負担率の最も大きい正規分布をそのサンプルのクラスターとします。

使う正規分布の数を決めると、その数の正規分布の重ね合わせでデータセットを表現します。正規分布の数がクラスターの数になります。さらに共分散行列の制約も決める必要があります。ただ、正規分布の数や共分散行列の制約はベイズ情報量規準 (Bayesian Information Criterion, BIC) などの指標によって最適化することもできます。つまり解析者が任意にパラメータの値を決めなくてもよいということです。

GMMは以下の手順で行われます。

  1. 必要に応じて説明変数をオートスケーリングする
    オートスケーリングとは各変数から平均値を引いて平均を0にし、各変数を標準偏差で割って標準偏差を1にする操作です。
  2. 正規分布の数 (クラスターの数) を決める
  3. 共分散行列の制約を決める
    共分散を0にする、分散の大きさを一定にする、などの制約の種類があります。      
    2. の正規分布の数や 3. の共分散行列の制約を変えてGMMを行い、ベイズ情報量規準(Bayesian Information Criterion, BIC) の最も小さい正規分布の数と共分散行列の制約との組み合わせを選択する方法もあります。
  4. GMMを実行する
  5. クラスタリングの結果を見える化する
    実践的なデータ解析の手順』 における「2.データを見える化 (可視化) する」でデータセットを見える化し、そこにクラスタリングの結果を表示します。例えばクラスターごとに色を変えてプロットすると見やすいです。

ご案内。

オススメ記事セレクション。

twitterでも発信中。

この記事に興味を持っていただけましたら、ぜひフォローをお願いします!


無料メルマガでブログにない情報を配信中。

データ解析・分析に興味がありましたらぜひ登録をお願いします!
無料メルマガの登録はこちら