アイデア力・積極性・コミュニケーション能力・協調性・責任感・行動力・発言力・質問力・・・・などなど、いろいろと人を評価する軸 (変数) ってありますよね。この変数が多すぎると問題がありますよって話です。
次元の呪い
次元の呪いってご存じですか?呪い・・・怖そうですよね。はい、次元の呪いってかなり怖いです。
たとえば、二等辺三角形の頂点が3つあって、頂点の間の距離を計算すると、やっぱり長い辺の距離が一番大きいじゃないですか。これは、二次元平面上だからはっきりしていることなんです。三次元、四次元、・・・と次元が大きくなる、つまり変数 (記述子・特徴量) の数が増えると、点と点との距離が、どれも同じくらいの大きさになってしまいます。似たり寄ったりになって区別がつきにくくなってしまうんです。これが次元の呪いです。
人を評価するときも次元の呪いに注意
最初に挙げたように、アイデア力・積極性・コミュニケーション能力・協調性・責任感・行動力・発言力・質問力・・・・など、人を評価する軸 (変数) をたくさん使ってしまうと、次元の呪いが問題になってきます。ある人と、それとは別の人との区別がつかなくなってしまうんです。極論すると、どの人も同じような評価になってしまいます。
人事のときは、この次元の呪いに気をつけなければなりません。
次元の呪いにどう対処するの?
では、データ解析・分析のときは次元の呪いのときにどのように対応しているのでしょうか。
大きく分けて3つあります。
1. 変数を選ぶ
一番シンプルな方法です。変数が多いからいけないんだから、変数が少なくなるまで選びましょう、という考え方です。
2. PCAなどで低次元化する
1. の方法でもよいのですが、大事な変数が選ばれないリスクもあります。なので、PCAなどの低次元化手法で効率的に変数の数を削減します。もちろん、1. や 2. を両方使うこともあります。
3. サンプルの数を減らす
これは少し高等テクニックです。サンプルの間の違いがつきにくいんだから、違いがはっきりするまで似たようなサンプルを除きましょう、という考え方です。人を評価するときは、残念ながらこの方法は使えませんね。
まとめ
次元の呪い、いかがでしたでしょうか。怖かったですよね。変数の数が多いときは、1. や 2.や 3. の方法でうまく対処しましょう。人事のときは 3.は使えませんので、1. か 2.でしょうね。
ご案内。
- 実践的なデータ解析の手順
- データ解析の手順の各段階における手法
- 公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング)
- 主成分分析(PCA)の進化する入門書・実践書~数式なしの導入から実践的応用・結果の解釈まで~(随時更新)
- 20人の学生に対する研究テーマの決め方
オススメ記事セレクション。
- 大学教員の5つのメリット (とデメリット?)
- 現役データサイエンティストへの『人工知能って怖いの?』に対する回答
- 人工知能との未来における人の役割~現役のデータサイエンティストのメッセージ~
- 集中する時間を確保するために大学教授が行っている8つのこと
- 風邪を引かないために大学教授が毎日行っている7つの方法
twitterでも発信中。
フォローしていただけると嬉しいです。
Follow @univprofblog1Tweets by univprofblog1
無料メルマガでブログにない情報を配信中。
無料メルマガの登録はこちら