python PR

【pythonで統計学】ノンパラメトリックとパラメトリック検定について

python ノンパラ パラメトリック
記事内に商品プロモーションを含む場合があります

統計検定を選択するときに、「ノンパラメトリック(ノンパラ)」「パラメトリック」という文字を見るかと思います

初めて統計に触れる方は、これが何を意味していて、何がどう違うのかがわからないと思います

僕がそうでした

検定手法を選ぶ際に、ノンパラかパラメトリックかはとても大切な事項になります

今回は、ノンパラとパラメトリックの違いについてと、pythonでどのように判断するかの方法について解説していきたいと思います

pythonで統計学を学ぶ流れは以下の記事を参考にしてください

python 統計学
pythonで統計学を学ぶメリット〜実際の学習手順を紹介〜近年、データサイエンティストの需要が高まってきていますが、データサイエンティスト必須能力として、「プログラミング言語」「統計学」が挙げられています。pythonで統計学を扱えれば、データサイエンティストとしての道も開けるでしょう。今回はpythonで統計学を学ぶメリットや実際にどのように学習していくべきかを解説していきたいと思います。...

ノンパラメトリックとパラメトリックの違いについて

統計手法について調べていると、ノンパラメトリックとパラメトリックの文字を見かけると思います

両者の違いは以下のようになります

  • ノンパラメトリック:解析対象のデータが一切の分布に由来しない
  • パラメトリック:解析対象のデータが何かしらの分布に由来すると考えられる

この時の何かしらの分布というのは、そのほとんどが正規分布と呼ばれるものになります

ノンパラメトリック検定について

ノンパラメトリック検定は、母集団が特定の分布をしていない、という仮定をするため、推定や検定を行うときには、分布の影響を受けない手法を選択することになります

代表的なものには以下のようなものがあります

いずれも正規分布していない場合に用いる検定になります

ノンパラでは平均値は使わない

ノンパラのデータはある特定の分布に従わないため、データが散らばっている場合があります

そのようなときに平均値を使ってしまうと、大きすぎる数値や小さすぎる数値に平均値が引っ張られてしまうため、正確な代表値として用いることができません

そのため、ノンパラのデータでは四分位範囲を用いるのがベターだと思います

パラメトリック検定について

ノンパラに対してパラメトリックは、母集団がある分布に従っているのが前提になります
上述した、正規分布に従っているかどうか、が大きいです

代表的なパラメトリック検定には、

などが挙げられます

t検定といってもいくつか種類があるので、詳しく知りたい方は、リンク先を参考にしてください

正規分布に従う・従わないは正規性の検定を用いればわかりますが、サンプルサイズが小さすぎる場合にパラメトリック検定を用いることは推奨されていません

これは、外れ値の影響を受けやすく、外れ値が存在していると有意差が出にくくなるためです

パラメトリックなデータでは平均値

パラメトリックなデータでは平均値・標準偏差を使用することで、そのデータがどのような分布をしているのかを把握することができます

pythonでノンパラ・パラメトリックの判断をする

pythonでノンパラ・パラメトリックの判断をするには、正規性の検定を用います

まずシャピロウィルク検定をかける場合には、以下のように記載をします

scipy.stats.shapiro(x)

xには該当するデータを入力すればOKです

pythonでコルモゴロフスミルノフ検定をかける

pythonでコルモゴロフスミルノフ検定をかける場合には、以下のように記載をします

scipy.stats.kstest(rvs, cdf, args=(), N=20, alternative='two-sided', mode='auto')

実際にはrvsの部分だけでいけるはずです

コルモゴロフスミルノフ検定ではデータ数が少ないと正しいp値が返ってこないため、データ数が少ないばあいには、シャピロウィルク検定をかけるようにしましょう

Q-Qプロットで正規性の確認を行う

最後にQ-Qプロットで正規性を確認する方法を解説していきます

scipy.stats.probplot(x, sparams=(), dist='norm', fit=True, plot=None, rvalue=False)

コードは上記のようになります

実際に実行すると、以下のようなQ-Qプロットが作成されますQ-Qプロット

Q-Qプロットでは、正規性に従っている場合、点が直線上に並びます

今回の場合は、ちょっと悩みますが、正規分布に従っていると判断して良さそうです

より詳しい解説はこちらの記事を参考にしてください

python 正規性の検定
【pythonで統計学】正規性の検定(シャピロウィルク検定etc)のかけ方~サンプルコード付き~t検定などの統計手法をかける場合には、まずそのデータが正規分布しているかを調べなくてはいけません。正規性を確認する方法の一つに、ヒストグラムを書いて目視で確認する、という方法がありますが、これだけでは正確ではありません。 そこで、「Q-Qプロット」や「シャピロウィルク検定」「コルモゴロフスミルノフ検定」などを使用して、正規性を確認していきます。 実際に統計をかける場合には、csvやexcelデータなどを読み込んで、統計にかけることが多いと思います。そこで今回は、pythonを使ってcsvから取り込んだデータで正規性の検定を行う方法について、解説していきたいと思います。...

まとめ

  • 統計にはパラメトリックとノンパラメトリックが存在する
  • 両者はある分布に従うかどうかで判断する
  • 分布については正規性の検定を用いる

統計学を学んだ書籍一覧

pythonの書籍を読むならkindleがおすすめ

Python学習を進めていく上で、

「ひとまず何かしらの書籍に目を通したい」「webで調べても全くわからない」という状況が何度も何度でも出てくるかと思います。

そういう時に便利なのが、kindleとテラテイルです。

Kindleはご存知の通り、電子書籍です。

Kindleには多くのpython学習本が用意されており、無料で読むことができます。(たまに有料もあります)

ひとまずどういった書籍があるのか?もしものために、書籍に目を通しておこう

という場合には、kindleの利用がおすすめです。

kindleでpythonの書籍を無料で読んでみる

おすすめプログラミングスクール

DMMWEBCAMP
  • WEBCAMPはコスパ最強
  • WEBCAMPは初心者に優しい充実したサポート付き
  • 16週間プランを選択して、返金してもらおう
WEBCAMPの公式ページはこちら WEBCAMPの口コミ・評価はこちら
テックアカデミー  
  • テックアカデミーは費用対効果抜群
  • テックアカデミーのサポートは個人の能力に応じつつ、python初心者に優しい
  • まずは無料体験でテックアカデミーを知ってから受講を決める
テックアカデミーの公式ページはこちら テックアカデミーの口コミ・評価はこちら
キカガク
  • 多種多様なスキルコース
  • 初心者から専門家まで対象
  • 給付金利用で費用を抑えられる
キカガクの公式ページはこちら キカガクの口コミ・評価はこちら
Aidemy Premium
  • 完全オンラインで、時間や場所に縛られず学習したい
  • マンツーマン学習サポートにより実践に近い経験をしたい
  • 未経験から機械学習エンジニアになりたい
Aidemy Premiumの公式ページはこちら Aidemy Premiumの口コミ・評価はこちら
My Agile Privacy
This website uses technical and profiling cookies. Clicking on "Accept" authorises all profiling cookies. Clicking on "Refuse" or the X will refuse all profiling cookies. By clicking on "Customise" you can select which profiling cookies to activate.