pandas PR

Pythonのpandasについて【できることできないこと】

python pandas
記事内に商品プロモーションを含む場合があります

pythonで分析や統計をしたいと思っているけど、いまいちよくわからない

Pythonで分析や統計を行う際にpandasでどういったことができるのか知りたい

こんな疑問にお答えします

pandasとは

pythonのライブラリの一種で、データ解析の機能を有しています

pandasは、プログラミング言語Pythonにおいて、データ解析を支援する機能を提供するライブラリである。

特に、数表および時系列データを操作するためのデータ構造と演算を提供する。

PandasはBSDライセンスのもとで提供されている。

wikipediaより

pandasを使用する場面としては、

  • 統計処理
  • 機械学習
  • 深層学習

上記の処理を行う前段階に行うことがほとんどです

そのため、pandasなどを使用した処理などのことを「データの前処理」と呼びます

統計や機械学習などのモデルを決定するのは、データの質であるため、この前処理を適当に行ってしまうと、とんでもない結果につながる可能性があります

データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます

データ分析の約8割は前処理で決定される

とも言われているほど、前処理・データの質というものは重要になります

pandasの前処理について学ぶならこの書籍が一番です

pandasで出来ること

pandasを使用することで以下のようなことが可能となります

  • データの読み込みや統計量の表示
  • グラフ化
  • データ分析

さらに細かく分けると以下のようなことが可能です

データの読込

  • CSV形式のデータの読込:read_csv()
  • Excelファイルの読込:read_excel()
  • JSON文字列の読込:read_json()
  • pickle形式(Pythonオブジェクトを保存する形式)によるデータの読込/書込:read_pickle()、to_pickle()
  • インターネット上で提供されている株価情報の読込:pandas-datareader

データの特徴を把握

  • データの特徴を表示:DataFrame.info()
  • 要約統計量を表示:DataFrame.describe()
  • データの一部を表示:DataFrame.head()、DataFrame.tail()
  • データの形状を表示:DataFrame.shape
  • 行数を取得:DataFrame.index.values
  • 列名を取得:DataFrame.columns.values
  • それぞれの列の型を取得:DataFrame.dtypes

データの切り出し(スライス)

  • データのスライス:DataFrame[]、DataFrame.iloc[]、DataFrame.loc[]
  • フィルタリング:DataFrame.query()

データの並べ替え

  • 値による並べ替え:DataFrame.sort_values()
  • インデックスによる並べ替え:DataFrame.sort_index()
  • 列名の変更:DataFrame.rename()

集計

  • 列の集計:DataFrame.value_counts()
  • 表の集計:DataFrame.groupby()
  • ※groupby().sum()で合計、groupby().mean()で平均値得ることができる

可視化

Matplotlibのimportが必要

  • ヒストグラム:DataFrame.hist()
  • 散布図、線グラフ:DataFrame.plot()
  • 棒グラフ:DataFrame.bar()
  • 箱ひげ図:DataFrame.boxplot()

欠損値の扱い

  • 欠損値の確認:DataFrame.isnull().sum()
  • 欠損値に値を埋める:DataFrame.fillna()
  • 欠損値のある行を削除する:DataFrame.dropna()

その他

  • カテゴリー変数の展開:get_dummies()
  • 列同士の相関を確認:DataFrame.corr()

上記以外のことはpandasではできないと思います

ライブラリについて

pandasはデータ解析の機能を有しているライブラリですが、ライブラリというのは「ある機能のために複数のものを一つにまとめたパッケージ」みたいなものです

以下の記事で詳細に解説しているので、参考にしてください

Pythonの外部ライブラリについて(インストール方法から更新・アンインストールまで)
Pythonの外部ライブラリについて(インストール方法から更新・アンインストールまで)Pythonにはライブラリと呼ばれる、いくつかのパッケージを一つにまとめたものがあります。 これを使用することで、グラフを書いたり、統計解析を行なったりすることが可能になっています ライブラリには標準ライブラリと外部ライブラリが用意されていますが、 この記事では、Pythonの外部ライブラリについて詳しく解説していきたいと思います...

pandas以外のライブラリについて

pandas以外にもデータ分析・解析を行うことができるライブラリはあります

  • numpy
  • matplotlib
  • Scipy
  • scikit-learn

それぞれ特徴が変わりますので、必要に応じたライブラリを選択する必要があります

基本的なデータ分析・解析などはpandasで十分だと思います

pandasのメリット

pandasは、基本的にexcelでできることはできます

しかし、繰り返し同じような作業を行う場合には、excelでは難しく、pythonなどのプログラミング言語が必要となってきます

膨大なデータで同じような作業を半自動で行ってくれるのが、pandasを使用する最大のメリットです

また、matplotlibやseabornを一緒に使えば、データの可視化まで簡単に行うことが可能です

pandasのデメリット

pandasのデメリットとしては、これまで使用したことがない場合には、コードを学ばなくてはいけない、という点があります

その点に関しては、以下の記事で解説をしているので、記事通り進めていけば、データの前処理〜統計〜可視化まで可能です

python 統計学
pythonで統計学を学ぶメリット〜実際の学習手順を紹介〜近年、データサイエンティストの需要が高まってきていますが、データサイエンティスト必須能力として、「プログラミング言語」「統計学」が挙げられています。pythonで統計学を扱えれば、データサイエンティストとしての道も開けるでしょう。今回はpythonで統計学を学ぶメリットや実際にどのように学習していくべきかを解説していきたいと思います。...

pandasの使い方

では実際にpandasを使っていきたいと思います

pandasを使うには、Anacondaの利用が便利です

Anacondaのインストール

Anacondaのインストールは簡単に行うことができるので、以下の記事を見つつ、進めていけばOKです

anacondaの構築方法
Pythonの環境構築〜Anacondaとは?〜サンプルコードと図解付きPythonの環境構築を調べると、「Anaconda」という文字を見かけるかと思います。 僕も最初はよくわからなくて、とりあえずwebサイトに書いてある通りに進めていきました。 そのおかげもあり、3回ほど環境構築で挫折をしました。 現在はAnacondaを使ってpythonの学習を進めています。 なので、今回はAnacondaの環境構築について解説をしていこうと思います。 この記事を読んでいるかたが迷子にならないように、画像付きで解説していこうと思いますので、最後までお付き合いください。...

ライブラリのインポート

Anacondaのインストールが完了したら、コードを打っていきます

pandasのライブラリをインポートするのは、以下のコード

import pandas as pd

「as」というのは、pandasを「pd」という名称で使いますよ、というおまじないです

seriesについて

pandasには「series」と「DataFrame」の2種類があります

seriesはデータが1対1の関係になっているものを指します

pandas概要

DataFrameについて

DataFrameとは、表計算ソフトのように、行と列で表現されます

基本的にcsvなどのファイルを読み込んだ際には、DataFrameになっています

そのため、ほとんどの場合には、このDataFrameを利用することになるため、理解を深めておくことは大切になります

pandasてcsvファイルを読み込む

実際にpandasでcsvファイルを読み込んで中身を確認していきます

import pandas as pd

file=pd.read_csv("XXXXX.csv")
print(file)

csvのファイルは該当ファイルのパス名をコピペすればOKです

読み込んだファイルの要約統計量を算出する

csvファイルを読み込んだら、要約統計量を算出してみましょう

import pandas as pd

file=pd.read_csv("XXXXX.csv")
print(file.describe())

これで最大値や最小値、平均値などを一気に算出することが可能です

より詳しい解説は以下の記事で行っているので、そちらも参考に進めてみてください

python 統計学 要約統計量
【pythonで統計学】pandasを使って要約統計量を算出する方法〜サンプルコード付き〜研究を進めていると、最大値や平均値、中央値を算出する機会があります この辺りはすぐに算出することができますが、四分位範囲や標準偏差...

まとめ

  • pandasを使えばデータ分析の前処理が行える
  • csvからデータを読み込むことも可能
  • 要約統計量の算出が簡単にできる

前処理のおすすめ参考書

おすすめプログラミングスクール

DMMWEBCAMP
  • WEBCAMPはコスパ最強
  • WEBCAMPは初心者に優しい充実したサポート付き
  • 16週間プランを選択して、返金してもらおう
WEBCAMPの公式ページはこちら WEBCAMPの口コミ・評価はこちら
テックアカデミー  
  • テックアカデミーは費用対効果抜群
  • テックアカデミーのサポートは個人の能力に応じつつ、python初心者に優しい
  • まずは無料体験でテックアカデミーを知ってから受講を決める
テックアカデミーの公式ページはこちら テックアカデミーの口コミ・評価はこちら
キカガク
  • 多種多様なスキルコース
  • 初心者から専門家まで対象
  • 給付金利用で費用を抑えられる
キカガクの公式ページはこちら キカガクの口コミ・評価はこちら
Aidemy Premium
  • 完全オンラインで、時間や場所に縛られず学習したい
  • マンツーマン学習サポートにより実践に近い経験をしたい
  • 未経験から機械学習エンジニアになりたい
Aidemy Premiumの公式ページはこちら Aidemy Premiumの口コミ・評価はこちら
My Agile Privacy
This website uses technical and profiling cookies. Clicking on "Accept" authorises all profiling cookies. Clicking on "Refuse" or the X will refuse all profiling cookies. By clicking on "Customise" you can select which profiling cookies to activate.