python PR

【pythonで統計学】推測統計学と記述統計学について

python 統計学 推測統計学
記事内に商品プロモーションを含む場合があります

統計学は大きく分けて3種類あります

  • 記述統計学
  • 推測統計学
  • ベイズ統計学

t検定などの「統計的仮説検定」を用いる統計学は推測統計学になります

さらに推測統計学は

  • 点推定
  • 区間推定

の2つに分けられます

今回は推測統計学と記述統計学について解説したあと、pythonでどのよう表現するのかをサンプルコードを記述していきたいと思います

推測統計学とは

推測統計学とは、母集団から標本を無作為に抽出し、試行を繰り返せば、標本から母集団の推測できること、とされています

母集団と標本

推測統計学では対象を母集団としており、

記述統計学では対象を標本としています

基本的には母集団全員の情報を得ることは難しいです

そのため、推測統計学というものが出てきます

母集団全てを調査することを「全数調査」といい、国勢調査がその一つです

推測統計学における母集団と標本

推測統計学では母集団と標本という言葉が頻繁に出てきます

  • 母集団:研究や調査によって対象となる集団
  • 標本:母集団から抽出した対象からなる集団

つまり標本は母集団のミニチュア版ということになります

標本数と標本サイズ
標本数(サンプル数):母集団から抽出したデータの数
標本サイズ(サンプルサイズ):1つのサンプル数のデータの数

標本数と標本サイズ

推測統計学における無作為抽出

無作為抽出とは、標本調査において標本の対象を母集団から無作為(ランダム)に選び出すことをいいます

推測統計学では、「標本は母集団から無作為抽出された集団」を前提にしています

しかし、実際の研究では無作為抽出を行うのは簡単ではないです

特に人を対象とする研究は対象者から同意を得る必要があります

同意を得られたのは、研究に大して前向きな対象者であったり偏った年代の方だけであったり…

と偏ったデータが集まってしまう可能性があります

なので、大切なのは「無理のない範囲で母集団を設定する」ということです

推測統計学の推定と検定

推測統計学には推定と検定の2種類があります

  • 推定:標本データを用いて、母集団を調査した時の数値を表現すること
  • 検定:標本データを用いて、母集団を調査したときにわかることについて想定した仮説が誤っているかどうかを判定する
  • 点推定:平均値や中央値などの1つの数値で表現すること
  • 区間推定:区間で表現したもの
python 統計学 95%信頼区間
【pythonで統計学】95%信頼区間の求め方〜サンプルコード付き〜これまでt検定や要約統計量などの求め方を解説してきました。また、ヒストグラムの作図や代表値などについても触れてきました。今回の記事では、論文投稿の際に求められることが増えてきていると言われている「 95%信頼区間」をpythonで求めていきたいと思います。...

統計的仮説検定では「背理法」という考え方も用いられています

確率はわかりやすいと思いますが、背理法について詳しく知りたい方は以下の記事を参考にしてください

python 統計学 背理法
【pythonで統計学】背理法の基本について統計的仮説検定を用いる場合には、その背景に「背理法」という考え方が採用されています。背理法を始めて聞く場合には、わかりにくいものですが、慣れれば自身の思考の糧にすることができます。この記事では、背理法とは何かについて解説していきたいと思います。...

pythonで区間推定を試してみる

では実際にpythonで区間推定を試してみましょう

よく用いられるのは信頼区間ですが、信頼区間はpythonを使わずとも、以下のように算出することができます

信頼区間の求め方

ただし、とてもめんどくさいので、pythonを使いましょう

import numpy as np
from scipy import stats
import pandas as pd
import seaborn as sns
sns.set()

#seabornに含まれているirisのデータを使用する
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
sepal_length=iris.iloc[:,0]
n=50
sample_df = sepal_length.sample(n=n)
print(sample_df.mean())

sample_mean = np.mean(sepal_length)
sample_var = stats.tvar(sepal_length)
print(stats.norm.interval(alpha=0.95, loc=sample_mean, scale=np.sqrt(sample_var/n)))

実際の結果は以下のようになります

95%信頼区間の算出

上の数値は標本平均、下の値が95%信頼区間になります

これは母集団(母数)の値は95%の信頼区間で5.61〜6.07の間にある、ということになります

サンプルサイズが増えれば、幅も狭くなります

信頼区間はαを設定する必要がありますが、その多くは95%で計算をされています

95%信頼区間とは

ある実験を100回行なった場合に算出された値のうち、95回はその区間の中に母集団の値が含まれる」ということ

≠95%の確率で母集団の値が含まれる

まとめ

  • 統計学は推測統計・記述統計・ベイズ統計学
  • 推測統計学は推定と検定の2種類を使う
  • 推定とは標本データを用いて、母集団を調査した時の数値を表現すること
  • 検定とは標本データを用いて、母集団を調査したときにわかることについて想定した仮説が誤っているかどうかを判定する
  • 推定には区間推定と点推定がある
  • 区間推定は95%信頼区間

統計学を学べる良書

私は大学院+独学で統計学を学び続けています

これまで参考になった統計学書は以下のものです

My Agile Privacy
This website uses technical and profiling cookies. Clicking on "Accept" authorises all profiling cookies. Clicking on "Refuse" or the X will refuse all profiling cookies. By clicking on "Customise" you can select which profiling cookies to activate.