統計学は大きく分けて3種類あります
- 記述統計学
- 推測統計学
- ベイズ統計学
t検定などの「統計的仮説検定」を用いる統計学は推測統計学になります
さらに推測統計学は
- 点推定
- 区間推定
の2つに分けられます
今回は推測統計学と記述統計学について解説したあと、pythonでどのよう表現するのかをサンプルコードを記述していきたいと思います
Contents
推測統計学とは
推測統計学とは、母集団から標本を無作為に抽出し、試行を繰り返せば、標本から母集団の推測できること、とされています
推測統計学では対象を母集団としており、
記述統計学では対象を標本としています
基本的には母集団全員の情報を得ることは難しいです
そのため、推測統計学というものが出てきます
母集団全てを調査することを「全数調査」といい、国勢調査がその一つです
推測統計学における母集団と標本
推測統計学では母集団と標本という言葉が頻繁に出てきます
- 母集団:研究や調査によって対象となる集団
- 標本:母集団から抽出した対象からなる集団
つまり標本は母集団のミニチュア版ということになります
標本数と標本サイズ
標本数(サンプル数):母集団から抽出したデータの数
標本サイズ(サンプルサイズ):1つのサンプル数のデータの数
推測統計学における無作為抽出
無作為抽出とは、標本調査において標本の対象を母集団から無作為(ランダム)に選び出すことをいいます
推測統計学では、「標本は母集団から無作為抽出された集団」を前提にしています
しかし、実際の研究では無作為抽出を行うのは簡単ではないです
特に人を対象とする研究は対象者から同意を得る必要があります
同意を得られたのは、研究に大して前向きな対象者であったり偏った年代の方だけであったり…
と偏ったデータが集まってしまう可能性があります
なので、大切なのは「無理のない範囲で母集団を設定する」ということです
推測統計学の推定と検定
推測統計学には推定と検定の2種類があります
- 推定:標本データを用いて、母集団を調査した時の数値を表現すること
- 検定:標本データを用いて、母集団を調査したときにわかることについて想定した仮説が誤っているかどうかを判定する
- 点推定:平均値や中央値などの1つの数値で表現すること
- 区間推定:区間で表現したもの
検定は「仮説が誤っているか」どうかを確率で判定します
統計的仮説検定では「背理法」という考え方も用いられています
確率はわかりやすいと思いますが、背理法について詳しく知りたい方は以下の記事を参考にしてください
pythonで区間推定を試してみる
では実際にpythonで区間推定を試してみましょう
よく用いられるのは信頼区間ですが、信頼区間はpythonを使わずとも、以下のように算出することができます
ただし、とてもめんどくさいので、pythonを使いましょう
import numpy as np
from scipy import stats
import pandas as pd
import seaborn as sns
sns.set()
#seabornに含まれているirisのデータを使用する
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
sepal_length=iris.iloc[:,0]
n=50
sample_df = sepal_length.sample(n=n)
print(sample_df.mean())
sample_mean = np.mean(sepal_length)
sample_var = stats.tvar(sepal_length)
print(stats.norm.interval(alpha=0.95, loc=sample_mean, scale=np.sqrt(sample_var/n)))
実際の結果は以下のようになります
上の数値は標本平均、下の値が95%信頼区間になります
これは母集団(母数)の値は95%の信頼区間で5.61〜6.07の間にある、ということになります
サンプルサイズが増えれば、幅も狭くなります
信頼区間はαを設定する必要がありますが、その多くは95%で計算をされています
95%信頼区間とは
「ある実験を100回行なった場合に算出された値のうち、95回はその区間の中に母集団の値が含まれる」ということ
≠95%の確率で母集団の値が含まれる
まとめ
- 統計学は推測統計・記述統計・ベイズ統計学
- 推測統計学は推定と検定の2種類を使う
- 推定とは標本データを用いて、母集団を調査した時の数値を表現すること
- 検定とは標本データを用いて、母集団を調査したときにわかることについて想定した仮説が誤っているかどうかを判定する
- 推定には区間推定と点推定がある
- 区間推定は95%信頼区間
統計学を学べる良書
私は大学院+独学で統計学を学び続けています
これまで参考になった統計学書は以下のものです