python PR

【pythonで統計学】データの代表値を算出する〜サンプルコード付き〜

python 統計学 データの代表値
記事内に商品プロモーションを含む場合があります

統計検定を行う際には、データの代表値を算出して、傾向をみることが多いと思います

pythonを使えば、データの代表値を簡単に算出することが可能です

今回はpythonでデータの代表値を算出する方法について解説していきたいと思います

また、こちらの記事からpythonで統計学を順序立てて学ぶことができるようにまとめているので、参考にしてみてください

python 統計学
pythonで統計学を学ぶメリット〜実際の学習手順を紹介〜近年、データサイエンティストの需要が高まってきていますが、データサイエンティスト必須能力として、「プログラミング言語」「統計学」が挙げられています。pythonで統計学を扱えれば、データサイエンティストとしての道も開けるでしょう。今回はpythonで統計学を学ぶメリットや実際にどのように学習していくべきかを解説していきたいと思います。...

データの代表値

データの代表値とは、「一組のデータに含まれる情報を1つの数値で表すこと」です

計算的代表値と位置的代表値の二種類があります

計算的代表値

計算的代表値は、

  • 算術平均:データの総和をデータの個数で割ったもの(ただの平均値)
  • 幾何平均:個々のデータの相乗積のN乗根幾何平均
  • 調和平均:各データの逆数の算術平均の逆数
  • 平方平均:算術平均の平方根

などに分類されます

位置的代表値

位置的代表値には、

  • 中央値:測定値を小さい順に並べた時に、ちょうど真ん中にくる値
    平均のように両端の値に左右されない
  • 最頻値:一組のデータの中で最も多く存在する値
  • 四分位数:昇順に配列された全データの25%,50%,75%に位置するデータ

などがあります

統計処理を行う際に使用するのは中央値・算術平均・四分位数が多いかと思います

上記3つのデータの代表値をpythonで表現していきたいと思います

pythonでデータの代表値を算出する

では実際にpythonでデータの代表値を算出していきたいと思います

今回は無料配布されているirisのデータをpandasからインポートして使用していきます

算術平均を算出する

まずは算術平均を算出していきます

import pandas as pd
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

print(iris.mean())

中央値を算出する

次は中央値を算出します

.median()で中央値を算出することができます

import pandas as pd
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

print(iris.median())

四分位数を算出する

最後は四分位数を算出します

四分位数を算出するには、.quantile()を使用します

パーセントの値は0~1の間で設定することができます

import pandas as pd
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

print(iris.quantile(q=[0.25, 0.5, 0.75]))

データの可視化

算出したそれぞれのデータの代表値をわかりやすいように可視化していきます

中央値は四分位範囲の第二四分位数に該当するので、平均を表す棒グラフと、四分位範囲を表す箱ひげ図を作成していきたいと思います

棒グラフの作成

棒グラフを作成するには、matplotlib.pyplot.barやseaborn、pandasなどで作成することができます

from matplotlib import pyplot as plt
import seaborn as sns; sns.set()
import pandas as pd
#あらかじめ用意されているirisのデータを使用
iris = sns.load_dataset('iris') 
sepal_length=iris.iloc[:,0]
sepal_width=iris.iloc[:,1]
print(sepal_length.mean(),sepal_width.mean())
data=[["iris",sepal_length.mean(),sepal_width.mean()]]
df=pd.DataFrame(data,columns=["name","sepal_length","sepal_width"]) 

color=["r","b"]
df.plot(x="name",y=["sepal_length","sepal_width"],kind="bar",color=color,figsize=(4,3))
 
plt.show()
iris平均値可視化

箱ひげ図を作成する

続いて箱ひげ図も作成してみましょう

from matplotlib import pyplot as plt
import seaborn as sns; sns.set()
#あらかじめ用意されているirisのデータを使用
iris = sns.load_dataset('iris') 
sns.boxplot(x=iris["sepal_length"],y=iris["species"])
 
plt.show()
seaborn箱ひげ図

今回はseabornを使用して箱ひげ図を作成しています

seabornを使用すると勝手に綺麗な見た目のグラフになるので、おすすめです

seabornを学ぶなら以下の書籍がおすすめです

まとめ

  • データの代表値には「計算的代表値」「位置的代表値」の2種類
  • 平均値・中央値・四分位数をよく使う
  • ノンパラデータは基本的に四分位数+箱ひげ図
python ノンパラ パラメトリック
【pythonで統計学】ノンパラメトリックとパラメトリック検定について統計検定を選択するときに、「ノンパラメトリック(ノンパラ)」「パラメトリック」という文字を見るかと思います。初めて統計に触れる方は、これが何を意味していて、何がどう違うのかがわからないと思います。検定手法を選ぶ際に、ノンパラかパラメトリックかはとても大切な事項になります。今回は、ノンパラとパラメトリックの違いについてと、pythonでどのように判断するかの方法について解説していきたいと思います...

pythonで統計学を学ぶ上で必須書籍

おすすめプログラミングスクール

DMMWEBCAMP
  • WEBCAMPはコスパ最強
  • WEBCAMPは初心者に優しい充実したサポート付き
  • 16週間プランを選択して、返金してもらおう
WEBCAMPの公式ページはこちら WEBCAMPの口コミ・評価はこちら
テックアカデミー  
  • テックアカデミーは費用対効果抜群
  • テックアカデミーのサポートは個人の能力に応じつつ、python初心者に優しい
  • まずは無料体験でテックアカデミーを知ってから受講を決める
テックアカデミーの公式ページはこちら テックアカデミーの口コミ・評価はこちら
キカガク
  • 多種多様なスキルコース
  • 初心者から専門家まで対象
  • 給付金利用で費用を抑えられる
キカガクの公式ページはこちら キカガクの口コミ・評価はこちら
Aidemy Premium
  • 完全オンラインで、時間や場所に縛られず学習したい
  • マンツーマン学習サポートにより実践に近い経験をしたい
  • 未経験から機械学習エンジニアになりたい
Aidemy Premiumの公式ページはこちら Aidemy Premiumの口コミ・評価はこちら
My Agile Privacy
This website uses technical and profiling cookies. Clicking on "Accept" authorises all profiling cookies. Clicking on "Refuse" or the X will refuse all profiling cookies. By clicking on "Customise" you can select which profiling cookies to activate.