python PR

pythonでデータ分析から可視化まで行う【サンプルコード付き】

python データ分析 可視化
記事内に商品プロモーションを含む場合があります

Pythonでデータ分析から可視化までを簡単に行う方法を知りたい

Pythonでデータ分析を行なった後に、どのような可視化ができるかを知りたい

こんな疑問にお答えします

実際にはこのような可視化ができるようになります

可視化について理解ができたら、実際にデータ分析・機械学習を実装していきましょう

Pythonでデータ分析を始めよう!挫折しない実践ガイドでスキルアップ

Pythonで機械学習に学んで実装してみよう【サンプルコードあり】 

pythonでデータ分析から可視化を行う方法

可視化を行うためには、まずはpythonでデータ分析を行う必要があります

Pythonでデータ分析を行うならば、以下のライブラリがおすすめです

  • pandas
  • numpy
  • scikit-learn

特にpandasとnumpyはcsvファイルを読み込むことができるので、データ分析を行いやすいライブラリと言えます

Pandasとnumpyでcsvファイルを読み込む方法は以下の記事を参考にしてください

scikit-learnは機械学習ライブラリであり、分類や回帰分析、クラスタリング、主成分分析などを行うことができます

前処理や統計処理に関しては、以下の記事で詳細に解説をしているので、そちらを参考にしてください

python 統計学
pythonで統計学を学ぶメリット〜実際の学習手順を紹介〜近年、データサイエンティストの需要が高まってきていますが、データサイエンティスト必須能力として、「プログラミング言語」「統計学」が挙げられています。pythonで統計学を扱えれば、データサイエンティストとしての道も開けるでしょう。今回はpythonで統計学を学ぶメリットや実際にどのように学習していくべきかを解説していきたいと思います。...

本格的にpythonを使ってデータサイエンスを学びたいと考えている方は、データミックスを活用して学ぶのもおすすめです

可視化を行うライブラリ

Pythonで可視化を行うには以下のようなライブラリを使用します

  • matplotlib
  • Bokeh
  • Plotly
  • HoloViews
  • Pygal
  • seaborn

などがあります

それぞれ様々な特徴がありますが、seabornはデフォルトでも綺麗な可視化を行うことができます

以下の記事では相関係数を求めてから、可視化までを解説しています

python 統計学 相関係数
相関係数を求める方法〜サンプルコード+可視化付き〜【Pythonで統計学】研究を行っていると、結構な頻度で相関係数を算出することがあります 今回は、相関係数をpythonで算出する方法を解説していきたいと...

pythonで可視化を行う

ここからは実際に可視化を行なっていきたいと思います

今回はseabornに含まれている「iris」のデータをもとに作成していきたいと思います

seabornで可視化を行う

まずはseabornで可視化を行なっていきたいと思います

まずは「iris」のデータをインポートします

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
print(iris)

>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width    species
0             5.1          3.5           1.4          0.2     setosa
1             4.9          3.0           1.4          0.2     setosa
2             4.7          3.2           1.3          0.2     setosa
3             4.6          3.1           1.5          0.2     setosa
4             5.0          3.6           1.4          0.2     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

[150 rows x 5 columns]

pairplotを行う

mport pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
print(iris)

#csvで読み込む場合
#file=pd.read_csv("XXXX.csv)

#irisのデータをseabornのpairplotで出力
sns.pairplot(iris)
pythonで可視化 pair-lot

pairplotで色を変える

上記の可視化では、色が全て同じであるため、いまいちわかりにくい結果となっています

そこで、”hue”を指定します

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
print(iris)

#csvで読み込む場合
#file=pd.read_csv("XXXX.csv)

#hueで指定して色分け."species"で色分けを指定
sns.pairplot(iris,hue="species")
python 可視化 pairplot hue

spciesは種類によって分類されており、irisに含まれるのは3種類です

そのため、3色で可視化がされました

pairplotでグラフ化する列を指定

varsもしくはx_vars,y_varsを指定すれば、グラフ化する列を指定することもできます

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")

#csvで読み込む場合
#file=pd.read_csv("XXXX.csv)
#sns.pairplot(iris)

#グラフ化する列を指定varsを使用
sns.pairplot(iris,hue="species",
             vars=["sepal_length"])

#グラフ化する列は増やせる
sns.pairplot(iris,hue="species",
             vars=["sepal_length","sepal_width"])

#グラフ化する列はx_varsとy_varsでも指定可能
#sns.pairplot(iris, hue='species',
             x_vars=['sepal_length', 'sepal_width'],
             y_vars=['petal_length', 'petal_width'])
python 可視化 pairplot vars

pairplotでマーカーを変更する

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")

#csvで読み込む場合
#file=pd.read_csv("XXXX.csv)
#sns.pairplot(iris)

#マーカーの変更
sns.pairplot(iris, hue='species', markers='+')
python 可視化 pairplotマーカー変更

マーカーの種類はこちらから

pairplotで回帰直線をプロット

回帰直線をプロットする場合には、kind=”reg”と指定します

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")

#csvで読み込む場合
#file=pd.read_csv("XXXX.csv)
#sns.pairplot(iris)

#回帰直線をプロットkindを使用
sns.pairplot(iris, hue='species', kind='reg')
python 可視化 pairplot回帰曲線

ヴァイオリンプロットを描く

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")

#csvで読み込む場合
#file=pd.read_csv("XXXX.csv)
#sns.pairplot(iris)

#ヴァイオリンプロット
sns.violinplot(x="species", y="sepal_length",data=iris)
python 可視化 ヴァイオリンプロット

棒グラフを描く

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")

#csvで読み込む場合
#file=pd.read_csv("XXXX.csv)
#sns.pairplot(iris)

#棒グラフ
sns.catplot(x="petal_length",data=iris,kind="count")
#棒グラフにエラーバーをつける
sns.catplot(x="petal_length",y="species",data=iris,kind="bar")
python 可視化 棒グラフ

棒グラフのみでは平均値の比較ができないため、エラーバー付きに変えると平均値での比較をすることができます

python 可視化 棒グラフエラーバー

ヒストグラムを描く

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")

#csvで読み込む場合
#file=pd.read_csv("XXXX.csv)
#sns.pairplot(iris)

#ヒストグラム
sns.distplot(iris["sepal_length"])
#確率密度関数を削除して、ヒストグラムだけを書く
sns.distplot(iris["sepal_length"],kde=False)
python 可視化 ヒストグラム python 可視化 ヒストグラム確率密度関数なし

箱ひげ図を描く

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")

#csvで読み込む場合
#file=pd.read_csv("XXXX.csv)
#sns.pairplot(iris)

#箱ひげ図を書くkind="box"を使用
sns.catplot(x="sepal_length",y="species",data=iris,kind="box")
#kind="boxen"でより詳細な表示
sns.catplot(x="sepal_length",y="species",data=iris,kind="boxen")
python 可視化 箱ひげ図 python 可視化 箱ひげ図boxen

scatter plotを描く

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")

#csvで読み込む場合
#file=pd.read_csv("XXXX.csv)
#sns.pairplot(iris)

#scatter plotを描く
sns.catplot(x="sepal_length",y="species",data=iris)
#scatter plotをより詳しく
sns.catplot(x="sepal_length",y="species",data=iris,kind="swarm")
python 可視化 scatterplot python 可視化 scatterplot詳細

ここまでできたら、実際にデータ分析・機械学習を実装していきましょう

Pythonでデータ分析を始めよう!挫折しない実践ガイドでスキルアップ

Pythonで機械学習に学んで実装してみよう【サンプルコードあり】

まとめ

pythonでデータ分析などを行うときには、可視化は必須になります

また、データの前処理やデータの解釈などを行えることで、データ分析には必要となります

これからpythonを使ってデータサイエンスを学びたいと考えている方は、データミックスを活用して学ぶのもおすすめです

国内においてデータサイエンティストの需要と供給が間に合っていないため、今のうちにデータサイエンスを学んでおけば、重宝される人材になれます

無料オンライン相談や個別相談などさまざまなイベントが開催中

python参考書籍

おすすめプログラミングスクール

DMMWEBCAMP
  • WEBCAMPはコスパ最強
  • WEBCAMPは初心者に優しい充実したサポート付き
  • 16週間プランを選択して、返金してもらおう
WEBCAMPの公式ページはこちら WEBCAMPの口コミ・評価はこちら
テックアカデミー  
  • テックアカデミーは費用対効果抜群
  • テックアカデミーのサポートは個人の能力に応じつつ、python初心者に優しい
  • まずは無料体験でテックアカデミーを知ってから受講を決める
テックアカデミーの公式ページはこちら テックアカデミーの口コミ・評価はこちら
キカガク
  • 多種多様なスキルコース
  • 初心者から専門家まで対象
  • 給付金利用で費用を抑えられる
キカガクの公式ページはこちら キカガクの口コミ・評価はこちら
Aidemy Premium
  • 完全オンラインで、時間や場所に縛られず学習したい
  • マンツーマン学習サポートにより実践に近い経験をしたい
  • 未経験から機械学習エンジニアになりたい
Aidemy Premiumの公式ページはこちら Aidemy Premiumの口コミ・評価はこちら
My Agile Privacy
This website uses technical and profiling cookies. Clicking on "Accept" authorises all profiling cookies. Clicking on "Refuse" or the X will refuse all profiling cookies. By clicking on "Customise" you can select which profiling cookies to activate.