pythonでデータ分析を始めるための5step【とにかく実践するだけ】

pythonを使ってデータ分析をできる様になりたい。

一からpythonを学び始めてデータ分析ができるようになるのか知りたい

こういった疑問に答えます

筆者について

2021年から本格的にPython学習を始め、今ではPythonによる収益化に成功

大学院時代には、R言語とPythonを使って統計処理を行っていたため、Pythonを使ったデータサイエンスの知識が豊富

医療データを機械学習を用いて解析したり、学会発表も行なっている

Pythonで機械学習に学んで実装してみよう【サンプルコードあり】

Pythonで機械学習を始めたい方は、こちらを参考にしてください

【実践済み】未経験者がPythonで機械学習を独学で学ぶ方法Pythonの学習を始める理由に、機械学習をやりたい！AI開発をしてみたい！という方が多いと思います。私もPythonの学習に踏み切ったのは、機械学習やAI開発を行うことができるからです。しかし、ゼロからPythonの機械学習を学ぶとなると、結構大変です。そこで、この記事では、Pythonで機械学習を独学で習得する方法について、解説をしていきます。今回紹介する方法は、実際に私が実践してきた方法になりますので、ぜひ参考にしてみてください。...

Pythonでデータ分析を行うまでの流れを知る

Pythonを使ってデータ分析を行うためには、pythonでデータ分析を行うまでの流れを知りましょう

大まかな流れとしては

データの読み込み
データの加工
データの統計処理
データの可視化
モデルの作成
モデルの評価
モデルの可視化

となります

一つずつ解説していきますが、必要のない部分は飛ばして行っても大丈夫です

モデルの作成以降は、機械学習の分野になってきますが、Pythonでデータ分析を行うのであれば、機械学習も身につけておいた方が、これからの時代に重宝されます

データの読み込み

データ分析を行うためのデータを読み込みましょう

読み込むには以下のコードを使用すればOKです

今回はseabornに含まれているirisのデータを使って統計解析を行なってみたいと思います

import pandas as pd
import seaborn as sns
sns.set()
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
print(iris.head())

>>>   
sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

データの加工

実際のデータになると欠損値が含まれていたり、不要なデータが含まれていることがあります

欠損値を削除するには以下のコードを使用すればOKです

irisデータでは欠損値がないので、コードの意味だけ理解しておきましょう

iris.dropna(how='any')

欠損値の処理として、引数を変更することで削除するものが変わってきます

dropna(how=’all’)：すべての値が欠損値である行・列を削除
dropna(how=’any’)：欠損値が1つでも含まれる行・列を削除
dropna(how=’thresh’)：欠損値ではない要素の数に応じて行・列を削除
dropna(subset=[‘name’])：特定の行・列に欠損値がある行・列を削除

統計処理を行う前に、ここでデータの分布を確認しておきます

正規性の検定と呼ばれるものです

コードはこちらでOKです

import pandas as pd
import seaborn as sns
sns.set()
from scipy import stats

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
A=iris.iloc[:,2]
B=iris.iloc[:,3]
result=stats.shapiro(A)
result=stats.shapiro(B)

詳細はこちらの記事を参考にしてください

【pythonで統計学】正規性の検定(シャピロウィルク検定etc)のかけ方~サンプルコード付き~t検定などの統計手法をかける場合には、まずそのデータが正規分布しているかを調べなくてはいけません。正規性を確認する方法の一つに、ヒストグラムを書いて目視で確認する、という方法がありますが、これだけでは正確ではありません。そこで、「Q-Qプロット」や「シャピロウィルク検定」「コルモゴロフスミルノフ検定」などを使用して、正規性を確認していきます。実際に統計をかける場合には、csvやexcelデータなどを読み込んで、統計にかけることが多いと思います。そこで今回は、pythonを使ってcsvから取り込んだデータで正規性の検定を行う方法について、解説していきたいと思います。...

データの統計処理

データ整形が終わったら、実際に統計処理を行います

今回は2群比較をしたいと思います

正規性の確認をしていますが、今回はノンパラメトリック検定を行います

対応しているデータの場合には、ウィルコクソンの符号付き順位検定をかけます

import pandas as pd
import seaborn as sns
sns.set()
from scipy import stats

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
A=iris.iloc[:,2]
B=iris.iloc[:,3]
result=stats.wilcoxon(A, B, alternative='two-sided')

対応していないデータの場合には、マンホイットニーのU検定をかけます

import pandas as pd
import seaborn as sns
sns.set()
from scipy import stats

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
A=iris.iloc[:,2]
B=iris.iloc[:,3]
result=stats.mannwhitneyu(A, B, alternative='two-sided')

データの対応の有無については、こちらを確認してください

>>>データの対応の有無とは？(…coming soon…)

それ以外の統計検定については、こちらを参考にしてください

pythonで統計学を学ぶメリット〜実際の学習手順を紹介〜近年、データサイエンティストの需要が高まってきていますが、データサイエンティスト必須能力として、「プログラミング言語」「統計学」が挙げられています。pythonで統計学を扱えれば、データサイエンティストとしての道も開けるでしょう。今回はpythonで統計学を学ぶメリットや実際にどのように学習していくべきかを解説していきたいと思います。...

データの可視化

統計処理まで終わったら、データの可視化を行います

seabornを使用した方が綺麗なグラフを作成することができるので、seabornを使用していきます

from matplotlib import pyplot as plt
import seaborn as sns; sns.set()
#あらかじめ用意されているirisのデータを使用
iris = sns.load_dataset('iris') 
sns.distplot(
    iris['sepal_width'], bins=13, label='data',
    kde=False,
    rug=False
)
plt.legend() # 凡例を表示
plt.show()   # ヒストグラムを表示

また、平均値を算出して、それをグラフ化するには以下のコードを入力します

from matplotlib import pyplot as plt
import seaborn as sns; sns.set()
import pandas as pd
#あらかじめ用意されているirisのデータを使用
iris = sns.load_dataset('iris') 
sepal_length=iris.iloc[:,0]
sepal_width=iris.iloc[:,1]
print(sepal_length.mean(),sepal_width.mean())
data=[["iris",sepal_length.mean(),sepal_width.mean()]]
df=pd.DataFrame(data,columns=["name","sepal_length","sepal_width"]) 

color=["r","b"]
df.plot(x="name",y=["sepal_length","sepal_width"],kind="bar",color=color,figsize=(4,3))
 
plt.show()

可視化の詳細は、以下の記事で解説をしています

pythonでデータ分析から可視化まで行う【サンプルコード付き】pythonで統計学をかけたり、前処理などを行なっても、誰もがわかる状態にはなっていません。誰もが見ただけでわかるようにするためには「可視化」をする必要があります。今回の記事ではseabornを使用した可視化の方法について解説をしていきたいと思います。...

モデルの作成

続いて、モデルの作成を行なっていきます

そもそもモデルって何？というところからですが、モデルというのは、入力されたデータを解析し、評価・判定を行う過程になります

例えば、大量の受信メールの中から、特定のフレーズやワードを学習し、迷惑メールに振り分ける、といった過程があった場合、特定のフレーズやワードを学習するのがモデルになります

機械学習の学習モデルはいくつかあります

線形回帰
正則化
サポートベクターマシン（SVM）
決定木・ランダムフォレスト
k近傍法
ロジスティック回帰
ニューラルネットワーク
クラスタリング
次元削減 (PCA : 主成分分析)
DQN

上記の学習モデルをおおまかに分けると、次のようになります

今回は線形回帰のサンプルコードを提示します

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# サンプルデータの作成
np.random.seed(0)
X = np.random.rand(100, 1)
y = 2 * X + 1 + 0.1 * np.random.randn(100, 1)

# データを訓練データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 線形回帰モデルのインスタンスを作成
model = LinearRegression()

# モデルの訓練
model.fit(X_train, y_train)

# モデルの予測
y_pred = model.predict(X_test)

# モデルの評価
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean squared error: {mse:.2f}")
print(f"R2 score: {r2:.2f}")

# 結果の可視化
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.plot(X_test, y_pred, color='red')
plt.legend()
plt.xlabel('X')
plt.ylabel('y')
plt.show()

モデルの評価

機械学習のモデル評価は、さまざまな方法があります

線形回帰のサンプルコードでは、平均二乗誤差とR2スコアを算出しています

1.分類問題の評価指標:

正解率 (Accuracy)
適合率 (Precision)
再現率 (Recall)
F1スコア (F1 Score)
AUC-ROCカーブ (Area Under the Receiver Operating Characteristic Curve)

2.回帰問題の評価指標:

平均二乗誤差 (Mean Squared Error, MSE)
平均絶対誤差 (Mean Absolute Error, MAE)
R2スコア (R-squared, Coefficient of Determination)

3.クラスタリング問題の評価指標:

シルエットスコア (Silhouette Score)
カルインスキ・ハラバスズ指数 (Calinski-Harabasz Index)
デイビス・ボールドイン指数 (Davies-Bouldin Index)

モデルの可視化

最後に機械学習モデルの可視化を行なっていきます

可視化を行うには、matplotlibやseabornを使用するのが一般的です

サンプルコードで提示している線形回帰もmatplotlibで可視化をしています

可視化を行うメリットとして、モデルの理解や解釈を容易にすることができます

機械学習モデルの可視化には、matplotlibやseaborn以外にも、決定木を可視化する「dtreeviz」というライブラリもあり、このような可視化を行うことができます

pythonでデータ分析を行うための環境構築をする

Pythonでデータ分析を行うためには、まず環境構築をする必要があります

データ分析を行うのであれば、Anacondaを使用するのがおすすめです

Anacondaの詳細は以下の記事を参考にしてください

Pythonの環境構築〜Anacondaとは？〜サンプルコードと図解付きPythonの環境構築を調べると、「Anaconda」という文字を見かけるかと思います。僕も最初はよくわからなくて、とりあえずwebサイトに書いてある通りに進めていきました。そのおかげもあり、3回ほど環境構築で挫折をしました。現在はAnacondaを使ってpythonの学習を進めています。なので、今回はAnacondaの環境構築について解説をしていこうと思います。この記事を読んでいるかたが迷子にならないように、画像付きで解説していこうと思いますので、最後までお付き合いください。...

Anacondaのインストール

Anacondaの起動

「Launhpad」から「Anaconda-Navigator」を起動します

下記のような画面が表示されたら、起動完了となります。

Anacondaをインストールするには、下記のサイトから行います

https://www.anaconda.com/products/individual

downloadをクリック

続けるをクリック

続けるをクリック

続けるをクリック

同意するをクリック

特定のディスクにインストールを選択

続けるをクリック

インストールをクリック

インストールが完了するのを待ちます

続けるをクリック

閉じるをクリック

Anacondaの起動

「Launhpad」から「Anaconda-Navigator」を起動します

下記のような画面が表示されたら、起動完了となります。

spyderの導入

Anacondaをインストールしたら、spyderをlaunchします

Launchの方法は簡単です

「Anaconda-Navigator」から「Spyder」を起動します

Spyderについて、詳しい解説はこちらから

Pythonをspyderで起動する方法〜図解付きで簡単にわかる〜今回は spyderとはなんなのか？ Spyderの利用方法は？について解説をしていきたいと思います。 spyderを使うことでpythonの独学が加速すると思います。ぜひ参考にしてみてください...

Spyderを起動すると以下のような画面になります

プログラムを書いて、実行すると、画面右下に実行結果が表示されます。

spyderでコードを書く

コードを書いていくのはspyderがおすすめです

Jupyter Notebookでコードを書いている人も多いと思いますが、僕のおすすめはspyerです

詳しい理由は以下の記事からどうぞ

pythonでデータ分析を行うための基本的なコードをマスターする

Pythonでデータ分析を行うには、データ分析のコードだけではなく、pythonの基本的な文法もマスターしておく必要があります

その都度マスターするのではなく、少しずつマスターしていけばOKです

実際に僕はそういうふうに行なってきました

Pythonで基本となる文法は繰り返し出てくるので、一度で理解しようとしなくで大丈夫です

Pythonでデータ分析を行うための主要なライブラリを把握する

Pythonの基本的な文法をマスターすることができたら、あとはデータ分析を行うのに必要なライブラリを把握すればOKです

Pythonでデータ分析を行う際によく出てくるライブラリは以下です

pandas
numpy
matplotlib
scikit-learn

pandas

pandasでは基本的なデータ分析・解析を行うことができるライブラリです

データの読み込み・書き込みなどの前処理などができます

要約統計量の算出も可能

【pythonで統計学】pandasを使って要約統計量を算出する方法〜サンプルコード付き〜研究を進めていると、最大値や平均値、中央値を算出する機会がありますこの辺りはすぐに算出することができますが、四分位範囲や標準偏差...

numpy

numpyは数値計算を行うことができるライブラリです

動作が高速なため、機械学習などでよく用いられています

matplotlib

データ可視化用のライブラリ

グラフ描画、画像表示などが可能

matplotlibよりseabornの方が綺麗なグラフを作成することができます

scikit-learn

機械学習用のライブラリ

学習モデルを作成し、予測や分類などに適応することが可能

実際にpythonでデータ分析を行なってみる

ここまでで一通りのデータ分析の流れを解説しました

実際にサンプルデータでデータ分析を行なっていきましょう

サンプルデータでデータ分析を行う

クラスタリングのサンプルコードは、以下の記事から実装することができます

Pythonで機械学習のクラスタリングを実装する【サンプルコードあり】この記事では、Pythonで機械学習のクラスタリングを実装していきます。クラスタリングは機械学習の中でも教師なし学習に分類される、機械学習です。PythonではK-meansを使ったクラスタリングを簡単に実装することができるので、一緒に実装していきましょう。...

また、線形回帰については、次のようになります

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# サンプルデータの作成
np.random.seed(0)
X = np.random.rand(100, 1)
y = 2 * X + 1 + 0.1 * np.random.randn(100, 1)

# データを訓練データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 線形回帰モデルのインスタンスを作成
model = LinearRegression()

# モデルの訓練
model.fit(X_train, y_train)

# モデルの予測
y_pred = model.predict(X_test)

# モデルの評価
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean squared error: {mse:.2f}")
print(f"R2 score: {r2:.2f}")

# 結果の可視化
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.plot(X_test, y_pred, color='red')
plt.legend()
plt.xlabel('X')
plt.ylabel('y')
plt.show()