communication_nigate_kaisya

ランチなどのご飯を一人で食べたり、カフェで一人でいたりするのが好きな人もいますよね。わたしもよくします。中には、一人でご飯したりお茶したりすることを『恥ずかしい』と感じる人がいるみたいですが、ぜんぜん恥ずかしいことなんてありませんよ!

データサイエンティストが、データサイエンスの観点で説明しましょう。

サンプルがたくさんあっても・・・

まず前提として、サンプルが大量にあると扱いにくいんです。いろいろな統計量を計算するにも、回帰モデルやクラス分類モデルを作るにも、何を計算するのに時間がかかるからです。なので、スパコンとか使えるのならいいかもしれませんが、基本的には最初はサンプルを選んでから解析します。この辺りはこちらの記事をご覧ください。

データ数(サンプル数)が多すぎてデータ解析(分析)するとき時間がかかってどうしようもない!~Kennard-Stone(KS) アルゴリズムによるサンプル選択のススメ~

特に、似たようなサンプルがたくさんあると、選んだ少数のデータを解析しても、すべてのサンプルを解析しても同じ結果になるので効率がいいのです。

サンプルを選ぶときに重要なこととは?

選んだサンプルのなかに同じサンプルがあったら意味ないですよね。それと同じで、なるべく似たようなサンプルを選ぶのは避けたいんです。実際、サンプル選択のときはアルゴリズム的に これまでに選ばれたサンプルからなるべく似ていないように 次のサンプルを選びます。

重要なことは、似たようなサンプルは選ばれないってことです。

孤立しよう!情報量が大きいぞ!

似たようなサンプルっていらないんです。選んでも、データサイエンスの観点から、情報量が小さいんです。

人も同じです。何人かで固まってる人たちって、選ぶとしたら、その中の一人で十分なんです。

就活のイベントで、すごい盛り上がってるグループがあったら、そのグループの中はだいたい似てる人たちってことなので、採用するのは多くてもその中の一人って感じです。似たような人はうちの会社にはいりません!

孤立してたほうが得しますよ。一人でクラスターを形成してるってことなんです。情報量が大きいんですよ!

まとめ

データサイエンスの観点から、ランチのときとかに孤立している人こそこれから重要な人といえます。わたしも応援したくなります。ぜひみなさんも、もっとデータサイエンスを学びましょう!いろいろと視野が広がりますよ!

ご案内。

オススメ記事セレクション。

twitterでも発信中。

フォローしていただけると嬉しいです。


無料メルマガでブログにない情報を配信中。

無料メルマガの登録はこちら