分散と標準偏差について

分散と標準偏差についてまとめます。

偏差とは

変量$x$の$n$個の各値\(x_1,x_2,..,x_n\)と平均値\(\displaystyle \overline{x}\)の差\(x_1 - \overline{x},x_2 - \overline{x} ...,x_n - \overline{x}\)
をそれぞれ\(x_1,x_2,...,x_n\)の平均値からの偏差という。

分散:\(s^2\)とは

分散はデータの平均値からの散らばりの度合いを表す量であり、データの各値が平均値から離れるほど大きな値となる。

偏差の2乗の平均値であり

\(\displaystyle s^2 = \frac{1}{n}\{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + ... + (x_n - \overline{x})^2\}\)

で表されます。

分散の公式

また、分散を求めるには以下の公式があります。

\(\displaystyle s^2 = \overline{x^2} - (\overline{x})^2\)

文章に置き換えると

$xの分散 = (x^2の平均値) - (xの平均値)^2$

$\overline{x}$が整数でない場合、上記の公式を使った方が計算が早くなるので、覚えておくと良いです。

分散の公式の証明

愚直に分散の定義式を展開してまとめることで、公式を求めることができます。

$\displaystyle s^2 = \frac{1}{n}\{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + \cdot \cdot \cdot + (x_n - \overline{x})^2\}$

$\displaystyle = \frac{1}{n}\{(x_{1}^{2} + \cdot \cdot \cdot + x_{n}^{2}) - 2 \overline{x}(x_1 + \cdot \cdot \cdot + x_n) + n(\overline{x})^2\}$

$\displaystyle = \frac{1}{n} (x_{1}^{2} + \cdot \cdot \cdot + x_{n}^{2}) - 2 \overline{x} \cdot \dfrac{1}{n}(x_1 + \cdot \cdot \cdot + x_n) + (\overline{x})^2$

ここで、別個で式を見ていくと

$\displaystyle = \frac{1}{n} (x_{1}^{2} + \cdot \cdot \cdot + x_{n}^{2})$は$x^2$の平均値と捉えることができるので、$\overline{x^2}$

$\displaystyle = \dfrac{1}{n}(x_1 + \cdot \cdot \cdot + x_n)$は$x$の平均値と捉えることができるので、$\overline{x}$

以上よりまとめると

$\displaystyle = \overline{x^2} - 2 \overline{x} \cdot \overline{x} + (\overline{x})^2 = \overline{x^2} - (\overline{x})^2 $

分散の展開式をイメージすることで、分散の公式を想定できるようにすると忘れないと思います。

標準偏差:$s$

分散の正の平方根で、

\(\displaystyle s = \sqrt{\frac{1}{n}\{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + ... + (x_n - \overline{x})^2\}}\)

\(\displaystyle = \sqrt{\overline{x^2} - (\overline{x})^2}\)

分散は\(s^2\)で表すので、
測定単位が$m$のとき、分散の単位は\(m^2\)、標準偏差の単位は$m$になります。

初版:2021/8/19

このエントリーをはてなブックマークに追加