概要

統計学や機械学習などのデータ分析では、

尺度、つまりは数値データについて、下記で説明する4つに分類できます。
この分類は、データ分析を行う上で理解が必要です。

何故、分類が必要か?

数値データを分析する」事は、「様々な演算や比較を行う」事です。
例えば、身長の伸びを分析する際、前年との差や伸び率を求め、それを他者と比較するでしょう。
尺度(数値データ)には特定演算について、意味がある場合と無い場合があります。
意味がある」とは、「客観的、傾向を図れる情報」ということです。
データにとって意味が無い演算をしても、分析材料に使えません。
何かしら意味をこじつけても、客観的に納得できる分析はできません。
適切な分析をしたり、機械学習モデルを作るために、本件の分類を理解し、データに合った演算・比較を行う必要があります。
上記と同様に身長を例にしてみます。
今年の身長は170cmで、前年は165cmとした時、その差は5cmです。
その5cmが、他の人の伸びと比べて高い場合は、「他の人に比べて身体的に成長してる」と想定できるでしょう。
これは、「毎年の身長データは、差に意味がある」ということです。

尺度4種

尺度は下記4種に分類できます。

  1. 名義尺度
  2. 順序尺度
  3. 間隔尺度
  4. 比率尺度

数値として比較的に一番自由に扱えるのは4 (比率尺度)であり、上にいくに連れて自由度合いが下がります。
つまり、1 (名義尺度) が一番制限が多いです。
また、下位の尺度は上位の尺度でもあります。
例えば、間隔尺度は順序尺でもあり、名義尺度でもあります。
それぞれの尺度について下記で説明します。

名義尺度

名義尺度は「特定情報を(只々)識別するため」の数値です。
「名義尺度」の名前の通り、「各名前に(特に意味のない)番号を付与した数値」のイメージです。
例えば、「クラスの各学生に適当に振った番号」は名義尺度です。
各データを只々識別するためにナンバリングして「ID」を作ることがありますが、それらは名義尺度になります。
但し、IDを例に挙げましたが、“データ全体”を一意に識別するものを名義尺度というのではありません。
例えば「男性を1、女性を2」とした数値も名義尺度となります。
名義尺度は、個々を識別する以外、何も分析に利用できません。
(特に機械学習で)活用する方法として、「0ne-Hot化」が挙げられます。
(本記事では「0ne-Hot化」の説明は省略します。)

順序尺度

順序尺度は「順番に意味がある数値」です。
例えば、アンケートで「”数学が好きか嫌いか?”という5段階評価(1~5)の質問」があったりしますが、それは順序尺度です。
5を「好き」、1を「嫌い」とした時、その数値が大きいことは、他方(別の回答者)に比べて”数学が好き”という想定(分析)ができます。
(もちろん、アンケートだと、同じ回答でも人によって温度感は異なるかもしれません。「大小に意味がある」ということがポイントです。)

間隔尺度

間隔尺度は「差に意味がある」数値です。
例えば、西暦は間隔尺度です。
今年が2021年で生まれた年が2000年ならば、その差の21年は「年齢」という意味を持ちます。
順序尺度で例に挙げた「アンケートの五段階評価」はどうでしょうか?
A君が「5」、Bくんが「3」と回答した時に、(数値に対する温度感は同じとして、)「A君はB君より数学が好き」と分かりますが、差の (5-3=) 2 に意味はあるでしょうか?
誰もが「このアンケートを知り、且つ、数値に対する温度感が同じ」というものであれば話は別ですが、基本的にそうではないでしょう。
つまり、大小は意味あれど、差が2だったり1だったりすることに意味はありません。
なので、上記例(アンケート)は間隔尺度ではありません。

比率尺度

比率尺度は「比に意味がある尺度」です。
例えば、上記で例に挙げた「身長の伸び」は比率尺度です。
前年の身長が140cmで今年の身長が154cmの時、比は (154 / 140 =) 1.1 となり、「今年の身長は前年の1.1倍」という意味を持ちます。
上記で「比率尺度は間隔尺度でもある」の旨を説明しましたが、「間隔尺度について、それが比率尺度かどうか?」(※1) は、比較的理解し難いかもしれません。
(※1)の回答としては「0が原点となれば比率尺度」です。

比は、分子が分母の”何倍か?”を示します。
“何倍か?”というのは「0が原点」という前提があります。
その前提を満たせば比率尺度になります。
別の例として、温度はどうでしょうか?
温度は、“0(℃)が凝固点となる”「摂氏」“32(℉)が凝固点となる”「華氏」があります。
「摂氏」は、0が原点と捉えられる凝固点があるため比率尺度と考えられます。
ですが、「華氏」はそうでは無いため比率尺度ではありません。

By clear

データエンジニア・機械学習・分析等を主とし、Webアプリ開発も行っているフリーランスです。