2016-05-18_22h05_00

特徴量(記述子・変数)には水準(レベル)があります。このレベルを考えた上でデータ解析をしなければなりません。

電話番号成績の順位知能指数身長ってすべて数字で表されますが、何か数字の意味が違うって感じしませんか?

これらはすべてレベルが違います。レベルは大きく分けて4つあります。

  • 名義尺度 (電話番号、背番号 など)
  • 順序尺度 (成績の順位、テニスの世界ランキング など)
  • 間隔尺度 (知能指数、摂氏温度[℃] など)
  • 比例尺度 (身長、体重、絶対温度[K] など)

順に説明します。

名義尺度

ただ分類するためだけに数字を割り当てたものです。いわゆる整理番号

名義尺度には電話番号、背番号、受験番号 などがあります。

このレベルの数字には、数値が大きい・小さいといった比較や、足し算・引き算・掛け算・割り算は意味がありません

統計量として意味があるのは、背番号10の人が5人もいる、といったような頻度です。

順序尺度

順番には意味がありますが、間隔には意味がないものです。一位と二位の差が1で、二位と四位の差が2とかの数字には意味がありません。

順序尺度には成績の順位、テニスの世界ランキング などがあります。

このレベルの数字には、数値が大きい・小さいといった比較には意味がありますが、足し算・引き算・掛け算・割り算には意味がありません

統計量として意味があるのは、頻度・最頻値・中央値です。

間隔尺度

順序尺度であり、さらに間隔が一定であるものです。ただ、0となる点に移民がありません。

間隔尺度には知能指数、摂氏温度[℃] などがあります。

このレベルの数字には、数値が大きい・小さいといった比較や、足し算・引き算には意味がありますが、掛け算・割り算には意味がありません

統計量として、頻度・最頻値・中央値・平均値・分散 などいろいろなものに意味が出てきます。

比例尺度

間隔尺度であり、かつ原点に意味があることで間隔にも比率にも意味があるものです。

身長、体重、絶対温度[K] などがあります。

このレベルの数字には、数値が大きい・小さいといった比較や、足し算・引き算・掛け算・割り算のすべてに意味があります

すべての統計量に意味が出てきます。


以上が4つの尺度水準の説明です。レベルが低いとデータ解析に使用できません。

データ解析を行うときは、間隔尺度もしくは比例尺度の特徴量(記述子・変数) でなければなりません。

注意しましょう!

名義尺度や順序尺度を使用したいときはどうするか?

各数値を満たす・満たさないを 1・0で表現する特徴量を、変数分だけ作成して対応します。