2016-05-28_22h48_09

データ解析の手順』における各項目で使用できる手法は以下の通りです。各手法の詳細や具体的な使い方については別エントリで書きます。公開中のプログラム・コード一覧についてはこちらをご覧ください。

  1. 数値化されたデータセットを準備する
    ・Random sampling
    ・Systematic sampling
    ・Kennard-Stone (KS) algorithm
  2. データを見える化 (可視化) する
    ・基礎統計量 [平均値、中央値、最大値、最小値、標準偏差、相関係数など]
    ・ヒストグラム
    ・主成分分析 (Principal Component Analysis, PCA)
    ・独立成分分析 (Independent Component Analysis, ICA)
    ・Kernel Principal Component Analysis (KPCA)
    ・Kernel Independent Component (KICA)
    ・自己組織化写像 (Self-Organizing Map, SOM)
    ・Generative Topographic Map (GTM)
    ・Stochastic Neighbor Embedding (SNE)
    ・t-distributed Stochastic Neighbor Embedding (t-SNE)
    ・多次元尺度構成法 (Multi-Dimensional Scaling, MSD)
  3. 外れ値処理・変数処理・ノイズ処理を行う
    ◯外れ値処理
    ・3シグマ法
    ・Hampel filter もしくは Hampel idenifer
    ・独立成分分析 (Independent Component Analysis, ICA)
    ・移動平均
    ・Savitzky-Golay (SG) filter
    ◯変数処理
    ・標準偏差の小さい変数を削除
    ・同じ値を持つデータの割合の大きい変数を削除
    ・相関係数の高い変数の組の一方を削除
    ・ステップワイズ回帰 (Stepwise Regression, SR)
    ・Variable Importance in Projection (VIP)
    ・Least Absolute Shrinkage and Selection Operator (LASSO)
    ・決定木 (Decision Tree, DT)
    ・ランダムフォレスト (Random Forests, RF)
    ・組み合わせ最適化法
    ・Genetic Algorithm-based Partial Least Squares (GAPLS)
           
    ◯ノイズ処理
    ・移動平均
    ・Savitzky-Golay (SG) filter
  4. クラスタリング (クラスター解析) を行う
    ・階層的クラスタリング
    ・k-means法
    ・Affinity Propagation (AP)
    ・D
    ensity-Based Spatial Clustering of Applications with Noise(DBSCAN)
    *類似度に関連する指標
    ・ユークリッド距離
    ・マハラノビス距離
    ・コサイン類似度
    ・相関係数
    ・タニモト係数 (tanimoto similarity)
    ・相互情報量
    ・カルバック・ライブラー情報量 (Kullback-Leibler divergence)
  5. 回帰モデルもしくはクラス分類モデルを作る
    ・最小二乗法による重回帰 (Multiple Linear Regression, MLR  もしくは Ordinary Linear Regression, OLR)
    ・主成分回帰 (Principal Component Regression, PCR)
    ・部分的最小二乗法 (Partial Least Squares, PLS)
    ・Kernel Partial Least Squares (KPLS)
    ・正準相関解析 (C
    anonical Correlation Analysis, CCA)
    ・リッジ回帰 (Ridge Regression, RR)

    ・Least Absolute Shrinkage and Selection Operator (LASSO)
    ・k近傍法 (k-Nearest Neighbor algorithm, k-NN)
    ・決定木 (Decision Tree, DT)
    ・ランダムフォレスト (Random Forest, RF)
    ・線形判別分析 (Linear Discriminant Analysis, LDA)
    ・サポートベクターマシン (Support Vector Machine, SVM)
    ・サポートベクター回帰 (Support Vector Regression, SVR)
    ・Backpropagation neural network
    ・Counterpropagation neural network
    ・ディープラーニング
    ・Gaussian Process (GP)
    ・Adaptive Boosting (AdaBoost)

  6. 外れ値処理・変数処理・ノイズ処理を行いながら回帰モデルもしくはクラス分類モデルを完成させる
    5.  と 6.  の組み合わせ
  7. 回帰モデルもしくはクラス分類モデルを適用できるデータ領域を決める
    ・データの範囲 (range)
    ・平均からの距離
    ・k近傍法 (k-Nearest Neighbor algorithm, k-NN)
    ・One-Class Support Vector Machine (OCSVM)
    ・Gaussian Process (GP)
         
  8. 回帰モデルもしくはクラス分類モデルを用いて予測・設計を行う
    ・Efficient Global Optimization (EGO)
     
以上が基本的な手法になります。今後それぞれにおいて手法を追加することもあります。

ご案内。

オススメ記事セレクション。

twitterでも発信中。

フォローしていただけると嬉しいです。


無料メルマガでブログにない情報を配信中。

無料メルマガの登録はこちら