統計覚え書き

いつ統計を使うのか

ある集団の特徴や、傾向を知りたいとき

代表値

ある集団の分布状況を知るために使う

  • 平均値(mean)
    • サンプルを全て足し合わせた後、サンプル数で割った値
      • 全てのサンプルを考慮する
      • 外れ値の影響を受ける
  • 中央値(medium)
    • サンプルを小さい順に並べたとき、真ん中にくる値
      • 全てのサンプルは考慮しない
      • 外れ値の影響をほぼ受けない
  • 最頻値(mode)
    • サンプルの中で最も出現頻度の高い値
参照

3つの代表値、平均値・中央値・最頻値の使い分け。データの代表はどれが最適? | アタリマエ!

偏差

各サンプル\( x_i \)と平均\( \overline{ x } \)の差

偏差(deviation) $$ d_i = x_i - \overline{ x } $$

分散と標準偏差

どちらも平均からのバラツキを表している

分散(variance)
 \(n: サンプル数 \)

 \(d_n: サンプルの偏差リスト \)

$$ \displaystyle s^{ 2 } = \frac{ 1 }{ n } \sum_{ i = 1 }^{ n } { d_i }^{ 2 } $$

標準偏差(standard deviation) $$ s = \sqrt{ s^{ 2 } } $$

  • 分散が偏差を2乗して使っているのは、偏差が正負どちらの値もとり得るため (そのまま足し合わせると打ち消しあう可能性がある)
  • 標準偏差はサンプルの単位次元に合わせるためにある
  • 分散の方が数式的には扱いやすい
参考

分散と標準偏差の違いは?:3次元公差マネジメントツール CETOL 6σ:サイバネット

標本と母集団

標本: ある集団の一部
母集団: ある集団の全体

名称と、よく使われる変数

平均 分散 標準偏差
標本 標本平均 標本分散 標本標準偏差
\( \overline{ x } \) \( s^{ 2 } \) \( s \)
母集団 母平均 母分散 標準偏差
\( μ \) \( σ^{ 2 } \) \( σ \)

標本の場合はただ平均や分散と書かれることも多い

母数

母平均や、母分散、母標準偏差のような母集団の性質を表す定数

定量

平均や、分散、標準偏差のような標本に数式処理1をした結果得られた数値

不偏推定量

標本の推定量の中でも、期待値が母数と等しいもの

平均 分散 標準偏差
不偏推定量 標本平均(そのまま使える) 不偏分散 なし
\( \overline{ x } \) or \( \hat{ μ } \) \( u^{ 2 }\) or \( \hat{ σ }^{ 2 } \) なし

文字の上のハット^は推定された値であることを強く示している
(例: \( \hat{ μ } \)は\( μ \)の推定値)

一見、不偏分散の平方根が不偏標準偏差のように感じるが、それでは期待値が母標準偏差と一致しないため適さない。
また、標準偏差の不偏推定量は存在しないが、便宜的に使いたいときは、近似するか不偏分散の平方根で代用する。
近似については参照に解説がある。

なお、エクセルでは不偏標準偏差を不偏分散の平方根で代用している。

分散 不偏分散 標準偏差 不偏標準偏差
関数 VAR.P() VAR.S() STDEV.P() STDEV.S()
参照

パッと見でわかる統計学ノート【分散や標準偏差において n-1 で割る公式の理由】 | アタリマエ!

不偏分散の平方根は標準偏差の不偏推定量か | ブログ | 統計WEB

平均と標準偏差:それって不偏推定値? : コンピュータ将棋基礎情報研究所

不偏分散

不偏推定量の中でよく使うのは不偏分散である。
分散に\( \frac{ n }{ n - 1} \)を掛けると求められる。

不偏分散(unbiased variance) $$ \displaystyle u^{ 2 } = \frac{ n }{ n - 1 } s^{ 2 } = \frac{ 1 }{ n - 1 } \sum_{ i = 1 }^{ n } { d_i }^{ 2 } $$

標準偏差と標準誤差

名称 意味 求めるのに使う標本数
標準偏差(SD) サンプルの、平均値からのバラツキ 1標本
標準誤差(SE) 平均値自身のバラツキ1 多標本(1標本でも可)

標準誤差を求めるには「各標本ごとに求めた平均値のリスト」の標準偏差を計算する 。
1標本の場合は不偏分散を用いる。

標準誤差(多標本)
 \(N: 標本数\)

 \(\overline{ x_n }: 平均値リスト\)

 \(μ: 平均値リストの平均(標本を無限にとれば母平均)\)

 \(s^{ 2 }: 平均値リストの分散 \)

$$ \displaystyle s^{ 2 } = \frac{ 1 }{ N } \sum_{ i = 1 }^{ N } { (\overline{ x_i } - μ) }^{ 2 } $$

$$ SE = SD = \sqrt{ s^{ 2 } } $$

標準誤差(1標本)
 \(n: サンプル数 \)

 \(u^{ 2 }: サンプルの不偏分散 \)

$$ SD = \sqrt{ u^{ 2 } } $$

$$ SE = \frac{ SD }{ \sqrt{ n } } $$

参考

Q2 同じ実験を繰り返して得られた平均値の誤差を出すときに,標準偏差と標準誤差ではどちらを用いるのでしょうか?|バイオ実験に絶対使える統計の基本Q&A|実験医学online:羊土社

標準誤差とは何なのか。95%信頼区間から分かる推定精度のおはなし【視聴率を調べる手法】 | アタリマエ!


  1. 母数を求めるための数式処理

  2. 広義には平均値だけではなく、推定量そのもののバラツキ