代表値(平均値、中央値、最頻値)、分散、標準偏差、変動係数

データサイエンス

今回は、代表値や分散、標準偏差についてまとめていきたいと思います。代表値とは、データ全体を要約する値のことで、平均値や中央値などがあります。統計の基礎となる部分なので、きちんと理解したいと思います。

平均値

$$母集団 : μ、 標本 : \bar{x}$$

平均値は母集団の場合、μと表し、標本の場合、x̄と表します。平均値は全ての要素を足し、それを要素の数で割ることによって求めます。

$$\sum_{i=1}^{n}k_i \quad または \quad \frac{x_1+x_2+x_3+…+x_{n-1}+x_n}{n}$$

代表値の中で、最もよく使われますが、大きな欠点があります。それは、外れ値に大きな影響を受けてしまう、ということです。外れ値とは、得られたデータの中で真の値の推定値からの残差が異常に大きい値のことです。そのため、平均値だけで、結論を出すのは適切ではありません。こういった時のために、中央値というものを使います。

中央値

データを値の小さい方から順に並べたときに、中央に位置するデータの値が中央値になります。データが偶数の場合には、中央に位置する2つのデータの平均値を中央値とします。

$$ \tilde{x}=x_{\frac{n+1}{2}}(データ数nが奇数) \\ \quad \qquad \quad =\frac{1}{2}(x_{\frac{n}{2}}+x_{\frac{n}{2}+1})(データ数nが偶数)$$

最頻値(モード)

データの中でもっとも多く現れている値を最頻値もしくはモードといいます。最頻値は量的変数でもカテゴリィ変数でも求めることができます。また、最頻値は一個とは限らず、複数個ある場合もあります。

分散

分散平均からの散らばり具合を示します。式は以下のようになります。

母集団の分散
$$
\sigma^2 = \frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}
$$
標本の分散
$$
s^2 = \frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}
$$

数式だけだと分かりづらいので、母集団の分散を使って、この数式の意味するものを考えて行きましょう。この式で、重要なのは分子の部分なので、分子の部分を中心に見て行きます。
「観測されたデータと平均の差の二乗をそれぞれ足し合わせたもの」が何を意味するのかというと、観測されたデータが平均に近ければその値は小さくなり、観測されたデータが平均から離れていれば、その値は大きくなります。この値を二乗する理由は二つあります。
1. 二乗することによって、常にプラスの値を得ることができます。つまり分散はマイナスにはなりません。二乗しなければ、プラスとマイナスの値が出てしまい、相殺しあってしまいます。
2. 観測されたデータが平均から遠ければ遠いほど、影響を大きくすることができます。

また、母集団と標本の分散の式の分子が違うことに気をつけましょう。母集団の場合はNですが、標本の時はn-1となっています。つまり、分子の数が同じであった場合、標本の分散の値の方が分母の数が小さい分、大きくなります。
何故、標本分散は母分散より大きくなるのでしょうか。
母集団の場合、全てのデータを集めることが可能です。しかし、標本の場合、全てのデータがないので、その分、不確実性が存在します。そのため、標本の分散の値の方が大きくなります。
数学的に証明もできますが、ここではしません。

標準偏差

分散とはデータの散らばり具合を示す値です。しかし、分散は二乗するため、値が大きくなりやすく、比較するのが難しいという欠点があります。また、二乗しているため、元のデータと単位の次元が変わってしまっています。
そこで、標準偏差というものを使います。標準偏差は母集団は母分散の平方根、標本は標本分散の平方根となります。

母集団の標準偏差
$$
\sigma = \sqrt{\sigma^2}
$$
標本の標準偏差
$$
s = \sqrt{s^2}
$$

平方根をとることで、値も小さくなり、単位の次元も合わせることができました。

標準偏差はデータのばらつきを図る尺度して非常によく使われます。

変動係数(CV)

変動係数は標準偏差を平均で割ることで求めることができます。

母集団の変動係数
$$
c_v = \frac{\sigma}{\mu}
$$
標本の変動係数
$$
\hat{c_v} = \frac{s}{\bar{x}}
$$

変動係数は二つ以上のデータの関係性を比較する時に使われます。

タイトルとURLをコピーしました