いつ統計を使うのか
ある集団の特徴や、傾向を知りたいとき
代表値
ある集団の分布状況を知るために使う
- 平均値(mean)
- サンプルを全て足し合わせた後、サンプル数で割った値
- 全てのサンプルを考慮する
- 外れ値の影響を受ける
- サンプルを全て足し合わせた後、サンプル数で割った値
- 中央値(medium)
- サンプルを小さい順に並べたとき、真ん中にくる値
- 全てのサンプルは考慮しない
- 外れ値の影響をほぼ受けない
- サンプルを小さい順に並べたとき、真ん中にくる値
- 最頻値(mode)
- サンプルの中で最も出現頻度の高い値
参照
3つの代表値、平均値・中央値・最頻値の使い分け。データの代表はどれが最適? | アタリマエ!
偏差
各サンプル\( x_i \)と平均\( \overline{ x } \)の差
偏差(deviation) $$ d_i = x_i - \overline{ x } $$
分散と標準偏差
どちらも平均からのバラツキを表している
分散(variance)
\(n: サンプル数 \)
\(d_n: サンプルの偏差リスト \)
$$ \displaystyle s^{ 2 } = \frac{ 1 }{ n } \sum_{ i = 1 }^{ n } { d_i }^{ 2 } $$
標準偏差(standard deviation) $$ s = \sqrt{ s^{ 2 } } $$
- 分散が偏差を2乗して使っているのは、偏差が正負どちらの値もとり得るため (そのまま足し合わせると打ち消しあう可能性がある)
- 標準偏差はサンプルの単位次元に合わせるためにある
- 分散の方が数式的には扱いやすい
参考
分散と標準偏差の違いは?:3次元公差マネジメントツール CETOL 6σ:サイバネット
標本と母集団
標本: ある集団の一部
母集団: ある集団の全体
名称と、よく使われる変数
平均 | 分散 | 標準偏差 | |
---|---|---|---|
標本 | 標本平均 | 標本分散 | 標本標準偏差 |
\( \overline{ x } \) | \( s^{ 2 } \) | \( s \) | |
母集団 | 母平均 | 母分散 | 母標準偏差 |
\( μ \) | \( σ^{ 2 } \) | \( σ \) |
標本の場合はただ平均や分散と書かれることも多い
母数
母平均や、母分散、母標準偏差のような母集団の性質を表す定数
推定量
平均や、分散、標準偏差のような標本に数式処理1をした結果得られた数値
不偏推定量
標本の推定量の中でも、期待値が母数と等しいもの
平均 | 分散 | 標準偏差 | |
---|---|---|---|
不偏推定量 | 標本平均(そのまま使える) | 不偏分散 | なし |
\( \overline{ x } \) or \( \hat{ μ } \) | \( u^{ 2 }\) or \( \hat{ σ }^{ 2 } \) | なし |
文字の上のハット^は推定された値であることを強く示している
(例: \( \hat{ μ } \)は\( μ \)の推定値)
一見、不偏分散の平方根が不偏標準偏差のように感じるが、それでは期待値が母標準偏差と一致しないため適さない。
また、標準偏差の不偏推定量は存在しないが、便宜的に使いたいときは、近似するか不偏分散の平方根で代用する。
近似については参照に解説がある。
なお、エクセルでは不偏標準偏差を不偏分散の平方根で代用している。
分散 | 不偏分散 | 標準偏差 | 不偏標準偏差 | |
---|---|---|---|---|
関数 | VAR.P() | VAR.S() | STDEV.P() | STDEV.S() |
参照
パッと見でわかる統計学ノート【分散や標準偏差において n-1 で割る公式の理由】 | アタリマエ!
不偏分散の平方根は標準偏差の不偏推定量か | ブログ | 統計WEB
平均と標準偏差:それって不偏推定値? : コンピュータ将棋基礎情報研究所
不偏分散
不偏推定量の中でよく使うのは不偏分散である。
分散に\( \frac{ n }{ n - 1} \)を掛けると求められる。
不偏分散(unbiased variance) $$ \displaystyle u^{ 2 } = \frac{ n }{ n - 1 } s^{ 2 } = \frac{ 1 }{ n - 1 } \sum_{ i = 1 }^{ n } { d_i }^{ 2 } $$
標準偏差と標準誤差
名称 | 意味 | 求めるのに使う標本数 |
---|---|---|
標準偏差(SD) | サンプルの、平均値からのバラツキ | 1標本 |
標準誤差(SE) | 平均値自身のバラツキ1 | 多標本(1標本でも可) |
標準誤差を求めるには「各標本ごとに求めた平均値のリスト」の標準偏差を計算する 。
1標本の場合は不偏分散を用いる。
標準誤差(多標本)
\(N: 標本数\)
\(\overline{ x_n }: 平均値リスト\)
\(μ: 平均値リストの平均(標本を無限にとれば母平均)\)
\(s^{ 2 }: 平均値リストの分散 \)
$$ \displaystyle s^{ 2 } = \frac{ 1 }{ N } \sum_{ i = 1 }^{ N } { (\overline{ x_i } - μ) }^{ 2 } $$
$$ SE = SD = \sqrt{ s^{ 2 } } $$
標準誤差(1標本)
\(n: サンプル数 \)
\(u^{ 2 }: サンプルの不偏分散 \)
$$ SD = \sqrt{ u^{ 2 } } $$
$$ SE = \frac{ SD }{ \sqrt{ n } } $$
参考
Q2 同じ実験を繰り返して得られた平均値の誤差を出すときに,標準偏差と標準誤差ではどちらを用いるのでしょうか?|バイオ実験に絶対使える統計の基本Q&A|実験医学online:羊土社