いつ統計を使うのか

ある集団の特徴や、傾向を知りたいとき

代表値

ある集団の分布状況を知るために使う

平均値(mean)
- サンプルを全て足し合わせた後、サンプル数で割った値
  - 全てのサンプルを考慮する
  - 外れ値の影響を受ける
中央値(medium)
- サンプルを小さい順に並べたとき、真ん中にくる値
  - 全てのサンプルは考慮しない
  - 外れ値の影響をほぼ受けない
最頻値(mode)
- サンプルの中で最も出現頻度の高い値

参照

3つの代表値、平均値・中央値・最頻値の使い分け。データの代表はどれが最適？ | アタリマエ！

偏差

各サンプル$ x_i $と平均$ \overline{ x } $の差

偏差(deviation) $$ d_i = x_i - \overline{ x } $$

分散と標準偏差

どちらも平均からのバラツキを表している

分散(variance)
　$n: サンプル数 $

　$d_n: サンプルの偏差リスト $

$$ \displaystyle s^{ 2 } = \frac{ 1 }{ n } \sum_{ i = 1 }^{ n } { d_i }^{ 2 } $$

標準偏差(standard deviation) $$ s = \sqrt{ s^{ 2 } } $$

分散が偏差を2乗して使っているのは、偏差が正負どちらの値もとり得るため (そのまま足し合わせると打ち消しあう可能性がある)
標準偏差はサンプルの単位次元に合わせるためにある
分散の方が数式的には扱いやすい

参考

分散と標準偏差の違いは？：3次元公差マネジメントツール CETOL 6σ：サイバネット

標本と母集団

標本: ある集団の一部
母集団: ある集団の全体

名称と、よく使われる変数

	平均	分散	標準偏差
標本	標本平均	標本分散	標本標準偏差
	$ \overline{ x } $	$ s^{ 2 } $	$ s $
母集団	母平均	母分散	母標準偏差
	$ μ $	$ σ^{ 2 } $	$ σ $

標本の場合はただ平均や分散と書かれることも多い

母数

母平均や、母分散、母標準偏差のような母集団の性質を表す定数

推定量

平均や、分散、標準偏差のような標本に数式処理¹をした結果得られた数値

不偏推定量

標本の推定量の中でも、期待値が母数と等しいもの

	平均	分散	標準偏差
不偏推定量	標本平均(そのまま使える)	不偏分散	なし
	$ \overline{ x } $ or $ \hat{ μ } $	$ u^{ 2 }$ or $ \hat{ σ }^{ 2 } $	なし

文字の上のハット^は推定された値であることを強く示している
(例: $ \hat{ μ } $は$ μ $の推定値)

一見、不偏分散の平方根が不偏標準偏差のように感じるが、それでは期待値が母標準偏差と一致しないため適さない。
また、標準偏差の不偏推定量は存在しないが、便宜的に使いたいときは、近似するか不偏分散の平方根で代用する。
近似については参照に解説がある。

なお、エクセルでは不偏標準偏差を不偏分散の平方根で代用している。

	分散	不偏分散	標準偏差	不偏標準偏差
関数	VAR.P()	VAR.S()	STDEV.P()	STDEV.S()

参照

パッと見でわかる統計学ノート【分散や標準偏差において n-1 で割る公式の理由】 | アタリマエ！

不偏分散の平方根は標準偏差の不偏推定量か | ブログ | 統計WEB

平均と標準偏差：それって不偏推定値？ : コンピュータ将棋基礎情報研究所

不偏分散

不偏推定量の中でよく使うのは不偏分散である。
分散に$ \frac{ n }{ n - 1} $を掛けると求められる。

不偏分散(unbiased variance) $$ \displaystyle u^{ 2 } = \frac{ n }{ n - 1 } s^{ 2 } = \frac{ 1 }{ n - 1 } \sum_{ i = 1 }^{ n } { d_i }^{ 2 } $$

標準偏差と標準誤差

名称	意味	求めるのに使う標本数
標準偏差(SD)	サンプルの、平均値からのバラツキ	1標本
標準誤差(SE)	平均値自身のバラツキ¹	多標本(1標本でも可)

標準誤差を求めるには「各標本ごとに求めた平均値のリスト」の標準偏差を計算する。
1標本の場合は不偏分散を用いる。

標準誤差(多標本)
　$N: 標本数$

　$\overline{ x_n }: 平均値リスト$

　$μ: 平均値リストの平均(標本を無限にとれば母平均)$

　$s^{ 2 }: 平均値リストの分散 $

$$ \displaystyle s^{ 2 } = \frac{ 1 }{ N } \sum_{ i = 1 }^{ N } { (\overline{ x_i } - μ) }^{ 2 } $$

$$ SE = SD = \sqrt{ s^{ 2 } } $$

標準誤差(1標本)
　$n: サンプル数 $

　$u^{ 2 }: サンプルの不偏分散 $

$$ SD = \sqrt{ u^{ 2 } } $$

$$ SE = \frac{ SD }{ \sqrt{ n } } $$

参考

Q2 同じ実験を繰り返して得られた平均値の誤差を出すときに，標準偏差と標準誤差ではどちらを用いるのでしょうか？｜バイオ実験に絶対使える統計の基本Q&A｜実験医学online：羊土社

標準誤差とは何なのか。95％信頼区間から分かる推定精度のおはなし【視聴率を調べる手法】 | アタリマエ！

母数を求めるための数式処理↩
広義には平均値だけではなく、推定量そのもののバラツキ↩

siunのメモ

統計覚え書き