pandas｜python-manブログ

pythonでデータ分析を行うための前処理【大量サンプルコードあり】

syou0445 — Wed, 23 Feb 2022 01:37:13 +0000

pythonを使用してデータ分析を行う際には、前処理を必ず行います

前処理はそのデータ分析の8割を決定すると言われているくらい、重要な処理になります

そもそも前処理というのは、

蓄積されたデータを目的の作業(統計処理や機械学習など)を行うために、欠損値を処理したり、単位を揃えて綺麗にしたり、加工して使えるカタチにすることを指します

取得・蓄積されているデータがそのままで使えるということは、ほぼありません

そのため、前処理という作業が必要になってきます

今回の記事では、

pythonを使ってデータ分析を行う際の前処理について、理解を深めたい

そもそもpythonを使ってデータ分析を行う際の、前処理についてよくわからない

といった疑問を解決していきます

データ分析の前処理が理解できたら、実際にデータ分析・機械学習を行なっていきましょう

Pythonでデータ分析を始めよう！挫折しない実践ガイドでスキルアップ

Pythonで機械学習に学んで実装してみよう【サンプルコードあり】

pythonでデータ分析の前処理

前処理はそのデータ分析の8割を決定すると言われているくらい、重要な処理になります

そもそも前処理というのは、

データ分析を行う際の前処理としては、以下のような手順になるかと思います

事前分析
クリーニング
加工・変換

それぞれについてを解説していきたいと思います

pythonでデータ分析の前処理

まず最初に、どういった前処理が必要なのかを考えていく必要があります

そのためには、どういったデータなのか、データの代表値を確認、欠損値の有無の確認などを行なっていきます

今回はseabornに入っているirisのデータで行なっていきたいと思いますので、まずはデータを読み込んでおきます

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
print(iris)

>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width    species
0             5.1          3.5           1.4          0.2     setosa
1             4.9          3.0           1.4          0.2     setosa
2             4.7          3.2           1.3          0.2     setosa
3             4.6          3.1           1.5          0.2     setosa
4             5.0          3.6           1.4          0.2     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

[150 rows x 5 columns]

事前分析を行う

事前分析では代表値や、データの型などを参照していきます

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#データ構成を確認
print(iris.info())

>>>出力結果

RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#行数と列数を確認
print(iris.shape)

>>>出力結果
(150, 5)

#行数だけ確認
print(len(iris))

>>>出力結果
150

#列数だけ確認
print(len(iris.columns))

>>>出力結果
5

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#インデックスの確認
print(iris.index)

>>>出力結果
RangeIndex(start=0, stop=150, step=1)

#カラム名の確認
print(iris.columns)

>>>出力結果
Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#DataFrameのデータ型を確認
print(iris.dtypes)

>>>出力結果
sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
species          object
dtype: object

欠損値の確認

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#データの欠損値を確認する
print(iris.isnull())

>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width  species
0           False        False         False        False    False
1           False        False         False        False    False
2           False        False         False        False    False
3           False        False         False        False    False
4           False        False         False        False    False
..            ...          ...           ...          ...      ...
145         False        False         False        False    False
146         False        False         False        False    False
147         False        False         False        False    False
148         False        False         False        False    False
149         False        False         False        False    False

[150 rows x 5 columns]

ちょっと見にくいので、もう少し簡潔にしていきます

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#欠損値をカラム名ごとにまとめて表示
print(iris.isnull().sum())

>>>出力結果
sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64

欠損値の削除・置換

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
# 欠損値がひとつでも含まれている行を削除する
iris.dropna()

# ある行のすべての値が欠損していたら、その行を削除する
iris.dropna(subset=['列名'], how='all')

# すべての欠損値を0で置換する
iris.fillna(0)

csvで読み込んだ列ごとの平均値で欠損値を置換する

def data_mean():#欠損値に対してその列の平均値を置換
    type = [("all file","*")]   
    file_path = filedialog.askopenfilename(filetypes = type, initialdir = os.getcwd ())   
        
    df = pd.read_csv(file_path, engine="python")
    for i in df.columns:
        mean=df[i].mean()
        df[i].fillna(mean,inplace=True)
    #欠損値を置換して、新規csvファイルを作成する
    new_file_path = file_path + "_a" +".csv"
    df.to_csv(new_file_path, index=False)

欠損値を無視する

# 計算の際に少しでも欠損値があると結果Nanになる。欠損値を無視するオプションを使う。
iris.sum(skipna=False)
iris.mean(skipna=False)

データの重複を確認する

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#重複を含まない値を確認
print(iris['sepal_length'].unique())

>>>出力結果
[5.1 4.9 4.7 4.6 5.  5.4 4.4 4.8 4.3 5.8 5.7 5.2 5.5 4.5 5.3 7.  6.4 6.9
 6.5 6.3 6.6 5.9 6.  6.1 5.6 6.7 6.2 6.8 7.1 7.6 7.3 7.2 7.7 7.4 7.9]

要素の抽出

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#単一のデータを選択する
print(iris['sepal_length'])

>>>出力結果
0      5.1
1      4.9
2      4.7
3      4.6
4      5.0

145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: float64

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#複数のデータを選択する
print(iris[['sepal_length','sepal_width']])

>>>出力結果
     sepal_length  sepal_width
0             5.1          3.5
1             4.9          3.0
2             4.7          3.2
3             4.6          3.1
4             5.0          3.6
..            ...          ...
145           6.7          3.0
146           6.3          2.5
147           6.5          3.0
148           6.2          3.4
149           5.9          3.0

[150 rows x 2 columns]

GUI上でキーワード指定して要素を抽出する

csvを読み込んで、GUI上でキーワード指定して要素を抽出することもできます

詳細は以下の記事を参考にしてください

【キーワード抽出可能】pythonのpandasで要素を抽出する方法(iloc,locなど)pythonのpandasを使用して、データの要素を抽出・変更する方法をサンプルコード・コメントアウト付きで解説していきます。GUIに実装した場合の、キーワードでの抽出方法もサンプルコード付きで解説していきますので、参考にしてください。...

import pandas as pd
import tkinter as tk
import os
from tkinter import filedialog 
from scipy import stats

root=tk.Tk() 
root.title("test")
root.geometry("800x600")

frame=tk.Frame()
frame.grid(row=0)
var=tk.StringVar()
var1=tk.StringVar()
text=tk.Entry(width=20,textvariable=var)
text.place(x=500,y=100)

listbox=tk.Listbox(frame,height=30,selectmode="single")
listbox.grid(row=1,column=1)

def fileselect():
    global var
    type = [("CSV file", "*.csv")]
    file_path = tk.filedialog.askopenfilename(filetypes = type, initialdir = os.getcwd ())  
    csv_file = pd.read_csv(file_path, engine="python", index_col=None)
    i = var.get()
    if i in csv_file.columns:
        word = csv_file.loc[:,i].values
        listbox.insert(tk.END,word)

    
Button=tk.Button(frame,text="selectfile",command=fileselect,width=20)
Button.grid(row=3,column=1)

root.mainloop()

csvデータを使ってデータ分析のための前処理

サンプルのcsvを作成しているので、こちらを元に前処理を行なっていきます

csvデータの読み込み

import pandas as pd

df = pd.read_csv("sample.csv")
print(df)

>>>出力結果

   Name Height weight
0     A   1.72m    72
1     B    171   71kg
2     C    168     62
3     D  1.56m    NaN
4     E  1.72m   70kg
5     F  168cm     68
6     G  155cm   55kg
7     H   1.56m   NaN
8     I    167   80kg
9     J    177     80
10    K    168   70kg
11    L    NaN   58kg
12    M  1.41m   50kg

欠損値やら単位の違いやらがひどいデータを作っています

これを一から前処理していきましょう

単位を削除する

まずは単位を削除していきます

csvなら手打ちでやればいいじゃん、ってなりますが、これが100個くらいあったら大変ですよね

def height_to_num(Height):
    if type(Height)==float:
        return Height
    if "cm" in Height:
        Height = float(Height[:-2])
    if (type(Height)!=float) and ("m" in Height):
        Height = float(Height[:-1])
        Height *= 100
    return Height

def weight_to_num(weight):
    if type(weight)==float:
        return weight
    if  (type(weight)!=float) and ("kg" in weight):
        weight = weight[:-2]
    return float(weight)

df["Height"] = df.Height.apply(height_to_num)
df["weight"] = df.weight.apply(weight_to_num)
print(df)

>>>出力結果

   Name Height  weight
0     A    172    72.0
1     B    171    71.0
2     C    168    62.0
3     D    156     NaN
4     E    172    70.0
5     F    168    68.0
6     G    155    55.0
7     H    156     NaN
8     I    167    80.0
9     J    177    80.0
10    K    168    70.0
11    L    NaN    58.0
12    M    141    50.0

欠損値を平均値で置換する

単位を削除することができたので、次は欠損値の処理を行っていきます

欠損値の処理は「fillna」で置換することができます

df.Height = df.Height.fillna(df.Height.mean())
df.weight = df.weight.fillna(df.weight.mean())
print(df)

>>>出力結果

   Name Height  weight
0     A    172    72.0
1     B    171    71.0
2     C    168    62.0
3     D    156    51.2
4     E    172    70.0
5     F    168    68.0
6     G    155    55.0
7     H    156    51.2
8     I    167    80.0
9     J    177    80.0
10    K    168    70.0
11    L    151    58.0
12    M    141    50.0

欠損値を削除する

欠損値の削除は「dropna()」を使用すれば可能です

print(df.dropna(how="any"))

>>>出力結果

   Name Height  weight
0     A    172    72.0
1     B    171    71.0
2     C    168    62.0
3     E    172    70.0
4     F    168    68.0
5     G    155    55.0
6     I    167    80.0
7     J    177    80.0
8     K    168    70.0
9     M    141    50.0

how=”any”では欠損ちが一つでも含まれる行・列を削除することになります

how=”all”では、すべての値が欠損値である行・列が削除されることになります

詳しくはpandasのreferenceを参照してください

pandas.DataFrame.dropna

まとめ

データ分析の前処理はめちゃくちゃ大事
前処理を怠ると結果が大きく異なる
面倒なことはpythonに任せよう

おすすめプログラミングスクール(無料体験あり)

Webスキルのパーソナルジム【WEBCAMP】

WEBCAMPを徹底解説している記事はこちら

pythonコースを利用できるWEBCAMPを徹底解説【無料体験あり】pythonを学ぶことができる「WECAMP」ですが、実際はどうなのでしょうか？webcampで本当にpythonを学ぶことができるのか・案件をとることができるのか、などpythonを初めて学ぶ方は不安に思うと思います。そこで、この記事ではpythonを学ぶことができるwebcampについて徹底解説していきます...

AIを学ぶならアイデミープレミアム

アイデミープレミアムを徹底解説している記事はこちら

pythonが学べるアイデミープレミアムを徹底解説【無料体験あり】アイデミープレミアムはpythonに特化したプログラミングスクールです。pythonを学ぼうと思った方は、一度は聞いたことがあるのではないでしょうか。今回はアイデミープレミアムで学ぶことで、エンジニア業界の戦力になれるのか、しっかりとpythonを学ぶことができるのかについて、徹底解説していきます...

pythonコース【テックアカデミー】

テックアカデミーを徹底解説している記事はこちら

pythonが学べるテックアカデミーを徹底解説【無料体験あり】今回の記事では、 pythonを扱えるようになりたい pythonを学んでエンジニアになりたいテックアカデミーってよく聞くけ...

python pandasのデータ分析でできること〜サンプルコード付き〜

syou0445 — Tue, 28 Dec 2021 15:54:16 +0000

pythonのpandasを使用して、データ分析のために前処理を行うことがあります

前処理を行うことでデータの質を高めることができ、より良い結果を得ることができます

そのため、データ分析の約8割は前処理で決定されるといっても過言ではありません

今回の記事では、pandasを使用したデータ分析でできることについて解説していきたいと思います

pythonのpandasでデータ分析をしたいけど、何ができるのか知りたい

pythonのpandasでデータ分析を行う流れを、ざっくりと知りたい

こんな疑問にお答えします

pandasについて理解ができたら、実際にデータ分析・機械学習を実装していきましょう

Pythonでデータ分析を始めよう！挫折しない実践ガイドでスキルアップ

Pythonで機械学習に学んで実装してみよう【サンプルコードあり】

pandasの初期設定

まずはpandasを使用するための初期設定を行なっていきます

pandasを使うには、Anacondaの利用が便利です

Anacondaのインストール

Anacondaのインストールは簡単に行うことができるので、以下の記事を見つつ、進めていけばOKです

Pythonの環境構築〜Anacondaとは？〜サンプルコードと図解付きPythonの環境構築を調べると、「Anaconda」という文字を見かけるかと思います。僕も最初はよくわからなくて、とりあえずwebサイトに書いてある通りに進めていきました。そのおかげもあり、3回ほど環境構築で挫折をしました。現在はAnacondaを使ってpythonの学習を進めています。なので、今回はAnacondaの環境構築について解説をしていこうと思います。この記事を読んでいるかたが迷子にならないように、画像付きで解説していこうと思いますので、最後までお付き合いください。...

ライブラリのインポート

Anacondaのインストールが完了したら、コードを打っていきます

pandasのライブラリをインポートするのは、以下のコード

import pandas as pd

「as」というのは、pandasを「pd」という名称で使いますよ、というおまじないです

これでpythonでpandasを使用することが可能です

データ分析を行うデータの読み込み

pandasを使用する準備ができたら、データを読み込んでいきます

今回は3種類のデータについて読み込み方法を解説します

csvファイル

pandasでcsvファイルを読み込む場合には、「read_csv」を使用します

import pandas as pd

#csvファイルの読み込み.csvファイルは該当ファイルのパス名をコピペすればOK
file=pd.read_csv("XXXXX.csv")

read_csvのオプションは以下です

引数	説明
encoding==’cp932またはUTF-8′	セルに日本語が含まれている場合、必須
header=None	先頭行をカラムとして取り込みたくないときに使う
dtype=’object’	すべてのセルを『文字列』として取り込む
names=’リストまたはタプル’	任意のカラム名を設定する
sep=’\t’	TXTファイルを読み込む

「sep=’\t’」を入力すれば、txtファイルを読み込むこともできます

excelファイル

excelのファイルを読み込む場合には、read_excelを使用します

import pandas as pd

#excelファイルの読み込み.excelファイルは該当ファイルのパス名をコピペすればOK
file=pd.read_excel("XXXXX.xlx",sheet_name='シート名')

googleスプレッドシート

googleスプレッドシートで読み込むのは、やや煩雑ですが、以下でできます

import json
import gspread # pip install gspread
from oauth2client.service_account import ServiceAccountCredentials # pip install oauth2client

scope = ['https://spreadsheets.google.com/feeds','https://www.googleapis.com/auth/drive']
credentials = ServiceAccountCredentials.from_json_keyfile_name('秘密鍵のJSONファイルのdirパス', scope)
gc = gspread.authorize(credentials)
SPREADSHEET_KEY = 'スプレッドシートキー'
worksheet = gc.open_by_key(SPREADSHEET_KEY).worksheet('ワークシート名')

df = pd.DataFrame(worksheet.get_all_values())

できるならば、あらかじめエクスポートしてから、csvファイルとして読み込むのがおすすめです

読み込んだデータの確認

ここからは読み込んだデータを確認していく作業を行なっていきます

今回はseabornに入っている、irisのデータを使用して、解説していきたいと思います

以下のコードでirisのデータをインポートすることができます

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")

データのチェック

irisのデータがインポートされているかを確認します

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
print(iris)

>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width    species
0             5.1          3.5           1.4          0.2     setosa
1             4.9          3.0           1.4          0.2     setosa
2             4.7          3.2           1.3          0.2     setosa
3             4.6          3.1           1.5          0.2     setosa
4             5.0          3.6           1.4          0.2     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

[150 rows x 5 columns]

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#先頭5行を出力
print(iris.head())

>>>出力結果
   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#最後から5行を出力
print(iris.tail())

>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width    species
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

欠損値の確認・処理

pandasを使って欠損値を確認するには、「.isnull」を使用します

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#データの欠損値を確認する
print(iris.isnull())

>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width  species
0           False        False         False        False    False
1           False        False         False        False    False
2           False        False         False        False    False
3           False        False         False        False    False
4           False        False         False        False    False
..            ...          ...           ...          ...      ...
145         False        False         False        False    False
146         False        False         False        False    False
147         False        False         False        False    False
148         False        False         False        False    False
149         False        False         False        False    False

[150 rows x 5 columns]

上記コードでは見にくいので、まとめていきます

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#欠損値をカラム名ごとにまとめて表示
print(iris.isnull().sum())

>>>出力結果
sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64

今回のirisのデータでは、欠損値がないことがわかりました

欠損値が含まれていた場合には、以下のコードで対応していきます

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
# 欠損値がひとつでも含まれている行を削除する
iris.dropna()

# ある行のすべての値が欠損していたら、その行を削除する
iris.dropna(subset=['列名'], how='all')

# すべての欠損値を0で置換する
iris.fillna(0)

基本的な分析

データの中身、欠損値の確認までできたので、次はデータ構成を確認していきます

データ構成の確認

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#データ構成を確認
print(iris.info())

>>>出力結果

RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB

データサイズの確認

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#行数と列数を確認
print(iris.shape)

>>>出力結果
(150, 5)

#行数だけ確認
print(len(iris))

>>>出力結果
150

#列数だけ確認
print(len(iris.columns))

>>>出力結果
5

データの行名と列名を確認

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#インデックスの確認
print(iris.index)

>>>出力結果
RangeIndex(start=0, stop=150, step=1)

#カラム名の確認
print(iris.columns)

>>>出力結果
Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

各列のデータの型を確認

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#DataFrameのデータ型を確認
print(iris.dtypes)

>>>出力結果
sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
species          object
dtype: object

列で重複を含まない値を確認する(ユニークの確認)

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#重複を含まない値を確認
print(iris['sepal_length'].unique())

>>>出力結果
[5.1 4.9 4.7 4.6 5.  5.4 4.4 4.8 4.3 5.8 5.7 5.2 5.5 4.5 5.3 7.  6.4 6.9
 6.5 6.3 6.6 5.9 6.  6.1 5.6 6.7 6.2 6.8 7.1 7.6 7.3 7.2 7.7 7.4 7.9]

各列のユニークな値の出現頻度を確認

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#出現頻度の確認
print(iris['sepal_length'].value_counts())

>>>出力結果
5.0    10
6.3     9
5.1     9
5.7     8
6.7     8
5.8     7
5.5     7
6.4     7
4.9     6
6.0     6
5.4     6
5.6     6
6.1     6
6.5     5
4.8     5
6.2     4
5.2     4
7.7     4
6.9     4
4.6     4
7.2     3
5.9     3
4.4     3
6.8     3
6.6     2
4.7     2
7.1     1
7.4     1
7.6     1
7.9     1
4.5     1
7.0     1
5.3     1
7.3     1
4.3     1
Name: sepal_length, dtype: int64

読み込んだファイルの要約統計量を算出する

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#出現頻度の確認
print(iris.describe())

>>>出力結果
       sepal_length  sepal_width  petal_length  petal_width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000

これで最大値や最小値、平均値などを一気に算出することが可能です

データの可視化

ここからはデータの可視化をしていきたいと思います

データの可視化はmatplotlibやseaborn、plotlyなどを使用すれば行うことができます

seabornが見た目が綺麗に可視化できるので、seabornを使用して解説をしていきたいと思います

import pandas as pd
#seabornで可視化を行う
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")

基本的にはseabornをインポートすれば、可視化を行うことができます

seabornを使用した可視化の詳細は以下の記事を参考にしてください

pythonでデータ分析から可視化まで行う【サンプルコード付き】pythonで統計学をかけたり、前処理などを行なっても、誰もがわかる状態にはなっていません。誰もが見ただけでわかるようにするためには「可視化」をする必要があります。今回の記事ではseabornを使用した可視化の方法について解説をしていきたいと思います。...

seabornを使用して、こんな感じの可視化を行なっていきます

https://python-man.club/wp-content/uploads/2021/12/pythonデータ分析可視化.mp4

データの選択・抽出

ここからは、特定のデータを選択・抽出する方法について解説をしていきたいと思います

直接指定

単一のデータを選択する

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#単一のデータを選択する
print(iris['sepal_length'])

>>>出力結果
0      5.1
1      4.9
2      4.7
3      4.6
4      5.0

145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: float64

複数のデータを選択する

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#複数のデータを選択する
print(iris[['sepal_length','sepal_width']])

>>>出力結果
     sepal_length  sepal_width
0             5.1          3.5
1             4.9          3.0
2             4.7          3.2
3             4.6          3.1
4             5.0          3.6
..            ...          ...
145           6.7          3.0
146           6.3          2.5
147           6.5          3.0
148           6.2          3.4
149           5.9          3.0

[150 rows x 2 columns]

条件指定

条件指定では、pandasのquery()を使用していきます

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#sepal_lengthで5.1のデータだけを抽出
print(iris.query('sepal_length == 5.1'))

>>>出力結果
    sepal_length  sepal_width  petal_length  petal_width     species
0            5.1          3.5           1.4          0.2      setosa
17           5.1          3.5           1.4          0.3      setosa
19           5.1          3.8           1.5          0.3      setosa
21           5.1          3.7           1.5          0.4      setosa
23           5.1          3.3           1.7          0.5      setosa
39           5.1          3.4           1.5          0.2      setosa
44           5.1          3.8           1.9          0.4      setosa
46           5.1          3.8           1.6          0.2      setosa
98           5.1          2.5           3.0          1.1  versicolor

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#sepal_lengthで5.1のデータかつspeciesがversicolorのデータを抽出
print(iris.query('sepal_length == 5.1 & species == "versicolor"'))

>>>出力結果
    sepal_length  sepal_width  petal_length  petal_width     species
98           5.1          2.5           3.0          1.1  versicolor

ランダム指定

元のデータからランダムでデータを抽出する場合には、sample()を使用します

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#データを全体の50％の割合でランダム抽出する
print(iris.sample(frac=0.5,random_state=0))

>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width     species
114           5.8          2.8           5.1          2.4   virginica
62            6.0          2.2           4.0          1.0  versicolor
33            5.5          4.2           1.4          0.2      setosa
107           7.3          2.9           6.3          1.8   virginica
7             5.0          3.4           1.5          0.2      setosa
..            ...          ...           ...          ...         ...
111           6.4          2.7           5.3          1.9   virginica
95            5.7          3.0           4.2          1.2  versicolor
20            5.4          3.4           1.7          0.2      setosa
15            5.7          4.4           1.5          0.4      setosa
52            6.9          3.1           4.9          1.5  versicolor

[75 rows x 5 columns]

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
#データを100個ランダム抽出する
print(iris.sample(n=100,random_state=0))

>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width     species
114           5.8          2.8           5.1          2.4   virginica
62            6.0          2.2           4.0          1.0  versicolor
33            5.5          4.2           1.4          0.2      setosa
107           7.3          2.9           6.3          1.8   virginica
7             5.0          3.4           1.5          0.2      setosa
..            ...          ...           ...          ...         ...
139           6.9          3.1           5.4          2.1   virginica
42            4.4          3.2           1.3          0.2      setosa
4             5.0          3.6           1.4          0.2      setosa
129           7.2          3.0           5.8          1.6   virginica
17            5.1          3.5           1.4          0.3      setosa

[100 rows x 5 columns]

データの整形

代表値の算出

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
# 有効データのカウント数
print(iris['sepal_length'].count())

>>>出力結果
150

# 合計値
print(iris['sepal_length'].sum())

>>>出力結果
876.5

# 最小値
print(iris['sepal_length'].min())

>>>出力結果
4.3

# 最大値
print(iris['sepal_length'].max())

>>>出力結果
7.9

# 平均値
print(iris['sepal_length'].mean())

>>>出力結果
5.843333333333335

# 中央値
print(iris['sepal_length'].median())

>>>出力結果
5.8

# 最頻値
print(iris['sepal_length'].mode())

>>>出力結果
0    5.0

# 標本分散
print(iris['sepal_length'].var())

>>>出力結果
0.6856935123042505


# 標本標準偏差
print(iris['sepal_length'].std())

>>>出力結果
0.8280661279778629

置換

replaceを使って要素を置換する場合には、第一引数に元の要素の値、第二引数に置換後の値を指定します

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")

print(iris)
>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width    species
0             5.1          3.5           1.4          0.2     setosa
1             4.9          3.0           1.4          0.2     setosa
2             4.7          3.2           1.3          0.2     setosa
3             4.6          3.1           1.5          0.2     setosa
4             5.0          3.6           1.4          0.2     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

#speciesの列でvirginicaというデータをsetosaに置換する
print(iris.replace('virginica','setosa'))
>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width species
0             5.1          3.5           1.4          0.2  setosa
1             4.9          3.0           1.4          0.2  setosa
2             4.7          3.2           1.3          0.2  setosa
3             4.6          3.1           1.5          0.2  setosa
4             5.0          3.6           1.4          0.2  setosa
..            ...          ...           ...          ...     ...
145           6.7          3.0           5.2          2.3  setosa
146           6.3          2.5           5.0          1.9  setosa
147           6.5          3.0           5.2          2.0  setosa
148           6.2          3.4           5.4          2.3  setosa
149           5.9          3.0           5.1          1.8  setosa

異なる複数の要素を一括で置換

異なる複数の要素を一括で置換したい場合には、辞書もしくはリストを使って行います

辞書で指定する場合には、第一引数に{元の値:置換後の値}の辞書を指定します

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
print(iris)
>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width species
0             5.1          3.5           1.4          0.2  setosa
1             4.9          3.0           1.4          0.2  setosa
2             4.7          3.2           1.3          0.2  setosa
3             4.6          3.1           1.5          0.2  setosa
4             5.0          3.6           1.4          0.2  setosa
..            ...          ...           ...          ...     ...
145           6.7          3.0           5.2          2.3  setosa
146           6.3          2.5           5.0          1.9  setosa
147           6.5          3.0           5.2          2.0  setosa
148           6.2          3.4           5.4          2.3  setosa
149           5.9          3.0           5.1          1.8  setosa

#virginicaをsetosaに、3.5の値を0.0に置換
print(iris.replace({'virginica':'setosa',3.5:0.0}))
>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width species
0             5.1          0.0           1.4          0.2  setosa
1             4.9          3.0           1.4          0.2  setosa
2             4.7          3.2           1.3          0.2  setosa
3             4.6          3.1           1.5          0.2  setosa
4             5.0          3.6           1.4          0.2  setosa
..            ...          ...           ...          ...     ...
145           6.7          3.0           5.2          2.3  setosa
146           6.3          2.5           5.0          1.9  setosa
147           6.5          3.0           5.2          2.0  setosa
148           6.2          3.4           5.4          2.3  setosa
149           5.9          3.0           5.1          1.8  setosa

リストで置換する場合には、第一引数に元の値のリスト、第二引数に置換後の値のリストを指定します

リストのサイズが一致していないとエラーになります

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
print(iris)
>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width species
0             5.1          3.5           1.4          0.2  setosa
1             4.9          3.0           1.4          0.2  setosa
2             4.7          3.2           1.3          0.2  setosa
3             4.6          3.1           1.5          0.2  setosa
4             5.0          3.6           1.4          0.2  setosa
..            ...          ...           ...          ...     ...
145           6.7          3.0           5.2          2.3  setosa
146           6.3          2.5           5.0          1.9  setosa
147           6.5          3.0           5.2          2.0  setosa
148           6.2          3.4           5.4          2.3  setosa
149           5.9          3.0           5.1          1.8  setosa

#virginicaをsetosaに、0.2の値を0.0に置換
print(iris.replace(['virginica',0.2],['setosa',0.0]))
>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width species
0             5.1          3.5           1.4          0.0  setosa
1             4.9          3.0           1.4          0.0  setosa
2             4.7          3.2           1.3          0.0  setosa
3             4.6          3.1           1.5          0.0  setosa
4             5.0          3.6           1.4          0.0  setosa
..            ...          ...           ...          ...     ...
145           6.7          3.0           5.2          2.3  setosa
146           6.3          2.5           5.0          1.9  setosa
147           6.5          3.0           5.2          2.0  setosa
148           6.2          3.4           5.4          2.3  setosa
149           5.9          3.0           5.1          1.8  setosa

削除

データを削除するには「drop」を使用します

import pandas as pd
import seaborn as sns
sns.set()

iris=sns.load_dataset("iris")
# 行の削除「行番号もしくは行名で指定」
# [inplace=True]：元のDataFrameを更新する。デフォルトはFalse
print(iris.drop(0))
>>>出力結果
     sepal_length  sepal_width  petal_length  petal_width    species
1             4.9          3.0           1.4          0.2     setosa
2             4.7          3.2           1.3          0.2     setosa
3             4.6          3.1           1.5          0.2     setosa
4             5.0          3.6           1.4          0.2     setosa
5             5.4          3.9           1.7          0.4     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

# 列の削除「列名で指定」
print(iris.drop('sepal_length', axis=1))
>>>出力結果
     sepal_width  petal_length  petal_width    species
0            3.5           1.4          0.2     setosa
1            3.0           1.4          0.2     setosa
2            3.2           1.3          0.2     setosa
3            3.1           1.5          0.2     setosa
4            3.6           1.4          0.2     setosa
..           ...           ...          ...        ...
145          3.0           5.2          2.3  virginica
146          2.5           5.0          1.9  virginica
147          3.0           5.2          2.0  virginica
148          3.4           5.4          2.3  virginica
149          3.0           5.1          1.8  virginica

pandasについて理解ができたら、実際にデータ分析・機械学習を実装していきましょう

Pythonでデータ分析を始めよう！挫折しない実践ガイドでスキルアップ

Pythonで機械学習に学んで実装してみよう【サンプルコードあり】

Pythonのpandasについて【できることできないこと】

syou0445 — Fri, 24 Dec 2021 14:07:33 +0000

pythonで分析や統計をしたいと思っているけど、いまいちよくわからない

Pythonで分析や統計を行う際にpandasでどういったことができるのか知りたい

こんな疑問にお答えします

pandasとは

pythonのライブラリの一種で、データ解析の機能を有しています

pandasは、プログラミング言語Pythonにおいて、データ解析を支援する機能を提供するライブラリである。

特に、数表および時系列データを操作するためのデータ構造と演算を提供する。

PandasはBSDライセンスのもとで提供されている。

wikipediaより

pandasを使用する場面としては、

統計処理
機械学習
深層学習

上記の処理を行う前段階に行うことがほとんどです

そのため、pandasなどを使用した処理などのことを「データの前処理」と呼びます

統計や機械学習などのモデルを決定するのは、データの質であるため、この前処理を適当に行ってしまうと、とんでもない結果につながる可能性があります

データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます

データ分析の約8割は前処理で決定される

とも言われているほど、前処理・データの質というものは重要になります

pandasの前処理について学ぶならこの書籍が一番です

現場で使える！pandasデータ前処理入門機械学習・データサイエンスで役立つ前処理手法

posted with ヨメレバ

株式会社ロンバート翔泳社 2020年04月20日頃

pandasで出来ること

pandasを使用することで以下のようなことが可能となります

データの読み込みや統計量の表示
グラフ化
データ分析

さらに細かく分けると以下のようなことが可能です

データの読込

CSV形式のデータの読込：read_csv()
Excelファイルの読込：read_excel()
JSON文字列の読込：read_json()
pickle形式(Pythonオブジェクトを保存する形式)によるデータの読込/書込：read_pickle()、to_pickle()
インターネット上で提供されている株価情報の読込：pandas-datareader

データの特徴を把握

データの特徴を表示：DataFrame.info()
要約統計量を表示：DataFrame.describe()
データの一部を表示：DataFrame.head()、DataFrame.tail()
データの形状を表示：DataFrame.shape
行数を取得：DataFrame.index.values
列名を取得：DataFrame.columns.values
それぞれの列の型を取得：DataFrame.dtypes

データの切り出し（スライス）

データのスライス：DataFrame[]、DataFrame.iloc[]、DataFrame.loc[]
フィルタリング：DataFrame.query()

データの並べ替え

値による並べ替え：DataFrame.sort_values()
インデックスによる並べ替え：DataFrame.sort_index()
列名の変更：DataFrame.rename()

集計

列の集計：DataFrame.value_counts()
表の集計：DataFrame.groupby()
※groupby().sum()で合計、groupby().mean()で平均値得ることができる

可視化

Matplotlibのimportが必要

ヒストグラム：DataFrame.hist()
散布図、線グラフ：DataFrame.plot()
棒グラフ：DataFrame.bar()
箱ひげ図：DataFrame.boxplot()

欠損値の扱い

欠損値の確認：DataFrame.isnull().sum()
欠損値に値を埋める：DataFrame.fillna()
欠損値のある行を削除する：DataFrame.dropna()

その他

カテゴリー変数の展開：get_dummies()
列同士の相関を確認：DataFrame.corr()

上記以外のことはpandasではできないと思います

ライブラリについて

pandasはデータ解析の機能を有しているライブラリですが、ライブラリというのは「ある機能のために複数のものを一つにまとめたパッケージ」みたいなものです

以下の記事で詳細に解説しているので、参考にしてください

Pythonの外部ライブラリについて(インストール方法から更新・アンインストールまで)Pythonにはライブラリと呼ばれる、いくつかのパッケージを一つにまとめたものがあります。これを使用することで、グラフを書いたり、統計解析を行なったりすることが可能になっていますライブラリには標準ライブラリと外部ライブラリが用意されていますが、この記事では、Pythonの外部ライブラリについて詳しく解説していきたいと思います...

pandas以外のライブラリについて

pandas以外にもデータ分析・解析を行うことができるライブラリはあります

numpy
matplotlib
Scipy
scikit-learn

それぞれ特徴が変わりますので、必要に応じたライブラリを選択する必要があります

基本的なデータ分析・解析などはpandasで十分だと思います

pandasのメリット

pandasは、基本的にexcelでできることはできます

しかし、繰り返し同じような作業を行う場合には、excelでは難しく、pythonなどのプログラミング言語が必要となってきます

膨大なデータで同じような作業を半自動で行ってくれるのが、pandasを使用する最大のメリットです

また、matplotlibやseabornを一緒に使えば、データの可視化まで簡単に行うことが可能です

pandasのデメリット

pandasのデメリットとしては、これまで使用したことがない場合には、コードを学ばなくてはいけない、という点があります

その点に関しては、以下の記事で解説をしているので、記事通り進めていけば、データの前処理〜統計〜可視化まで可能です

pythonで統計学を学ぶメリット〜実際の学習手順を紹介〜近年、データサイエンティストの需要が高まってきていますが、データサイエンティスト必須能力として、「プログラミング言語」「統計学」が挙げられています。pythonで統計学を扱えれば、データサイエンティストとしての道も開けるでしょう。今回はpythonで統計学を学ぶメリットや実際にどのように学習していくべきかを解説していきたいと思います。...

pandasの使い方

では実際にpandasを使っていきたいと思います

pandasを使うには、Anacondaの利用が便利です

Anacondaのインストール

Anacondaのインストールは簡単に行うことができるので、以下の記事を見つつ、進めていけばOKです

ライブラリのインポート

Anacondaのインストールが完了したら、コードを打っていきます

pandasのライブラリをインポートするのは、以下のコード

import pandas as pd

「as」というのは、pandasを「pd」という名称で使いますよ、というおまじないです

seriesについて

pandasには「series」と「DataFrame」の2種類があります

seriesはデータが1対1の関係になっているものを指します

DataFrameについて

DataFrameとは、表計算ソフトのように、行と列で表現されます

基本的にcsvなどのファイルを読み込んだ際には、DataFrameになっています

そのため、ほとんどの場合には、このDataFrameを利用することになるため、理解を深めておくことは大切になります

pandasてcsvファイルを読み込む

実際にpandasでcsvファイルを読み込んで中身を確認していきます

import pandas as pd

file=pd.read_csv("XXXXX.csv")
print(file)

csvのファイルは該当ファイルのパス名をコピペすればOKです

読み込んだファイルの要約統計量を算出する

csvファイルを読み込んだら、要約統計量を算出してみましょう

import pandas as pd

file=pd.read_csv("XXXXX.csv")
print(file.describe())

これで最大値や最小値、平均値などを一気に算出することが可能です

より詳しい解説は以下の記事で行っているので、そちらも参考に進めてみてください

【pythonで統計学】pandasを使って要約統計量を算出する方法〜サンプルコード付き〜研究を進めていると、最大値や平均値、中央値を算出する機会がありますこの辺りはすぐに算出することができますが、四分位範囲や標準偏差...

まとめ

pandasを使えばデータ分析の前処理が行える
csvからデータを読み込むことも可能
要約統計量の算出が簡単にできる

posted with ヨメレバ

株式会社ロンバート翔泳社 2020年04月20日頃

Python2年生データ分析のしくみ体験してわかる！会話でまなべる！

posted with ヨメレバ

森巧尚翔泳社 2020年08月21日頃

posted with ヨメレバ

Wes McKinney/瀬戸山雅人オライリー・ジャパン 2018年07月26日頃

楽天ブックス

Amazon

Kindle

【キーワード抽出可能】pythonのpandasで要素を抽出する方法(iloc,locなど)

syou0445 — Mon, 20 Dec 2021 15:35:36 +0000

Pandasのデータフレームで任意の行・列を指定してデータを取得・変更する方法について解説していきます

機械学習やデータ分析の際には、前処理の段階で、条件にあう特定データの行・列を抽出する場合などに使用することが多いです。

また、GUIとして、キーワードを入力しておき、csvを読みこませることで、そのキーワードに合致するデータ抽出の方法についても解説していきたいと思います。

完成のイメージはこんな感じです

pandasキーワード抽出

pandasとは

まずpandasについて簡単に説明を入れておきます

pandasというのは、pythonにおいて表形式になっており、データ分析を効率的に行うためのライブラリです

csvファイルなどの読み込み・集計・加工・可視化などが可能です

pandasで要素を抽出する方法

pandasで要素を抽出する方法は4種類です

loc:スライス表記で、ラベル名を指定(複数可能)
iloc：行もしくは列番号を指定(複数可能)
at:ラベル名を指定(単独)
iat:行もしくは列番号を指定(単独)

大きく分けると上記の4種類になります

処理速度は単独抽出のat,iatが速いです

まずはpandasでcsvファイルを読み込みます

import pandas as pd

#pandasでcsvファイルの読み込み
file=pd.read_csv('XXXXXXX.csv',index_col=0)

#読み込んだcsvのインデックスとカラム名を出力
print(file.index.values)
print(file.columns.values)

読み込んだcssvファイルの中身

インデックスとカラム名

at,iatで要素の抽出

atはラベル名を指定します

atのドキュメント

データ抽出だけではなく、その位置に新たな値を設定することも可能です

import pandas as pd

#pandasでcsvファイルの読み込み
file=pd.read_csv('XXXXXXX.csv',index_col=0)

#AのhipflexROMを指定して出力
print(file.at['A','hipflexROM'])
>>>95

#atを使用して、AのhipflexROMを95から120に書き換え
file.at['A','hipflexROM']=120

#再度AのhipflexROMを指定して出力
print(file.at['A','hipflexROM'])
>>>120

iatは行番号・列番号を指定して、要素を抽出します

iatのドキュメント

at同様、iatはデータ抽出だけではなく、その位置に新たな値を設定することも可能です

import pandas as pd

#pandasでcsvファイルの読み込み
file=pd.read_csv('XXXXXXX.csv',index_col=0)

#iatを使用して、行番号・列番号を指定(1行目の0列目)して出力
print(file.iat[1,0])
>>>100

#iatを使用して、新たな値120に書き換え
file.iat[1,0]=120

#再度iatを使用して、行番号・列番号を指定(1行目の0列目)して出力
print(file.iat[1,0])
>>>120

iatを使用する場合は、行番号・列番号ともに「0」始まり

loc,ilocを使用して単独もしくは複数の要素を抽出

loc,ilocは単独だけではなく、複数の要素を抽出することも可能

locでは行名と列名で要素を指定します

locのドキュメント

ilocのドキュメント

import pandas as pd

#pandasでcsvファイルの読み込み
file=pd.read_csv('XXXXXXX.csv',index_col=0)

#locを使用して、行名・列名を指定して出力
print(file.loc['A','hipflexROM'])
>>>95

#ilocを使用して、行番号・列番号を指定して出力(1行目・0列目)
print(file.iloc[1,0])
>>>100

#locを使用して、AのhipflexROMを150に書き換え
file.loc['A','hipflex']=150

#再度locを使用して、行名・列名を指定して出力
print(file.loc['A','hipflexROM'])
>>>150

#ilocを使用して、1行目の0列目を150に書き換え
file.iloc[1,0]=150

#再度ilocを使用して、行番号・列番号を指定して出力(1行目・0列目)
print(file.iloc[1,0])
>>>150

#AからF行目までのhipflexROMを出力
print(file.loc['A':'F','hipflexROM'])
>>>
ID
A     95
B    100
C    110
D     85
E     70
F     65

#0から3行目のhipflexROMからhipabdROMまでを出力
print(file.iloc[:3,[0,2]])
>>>
    hipflexROM  hipabdROM
ID                       
A           95       15.0
B          100       15.0
C          110       10.0

複数の要素を抽出する方法

複数の要素を抽出する場合には、

#AからF行目までのhipflexROMを出力
print(file.loc['A':'F','hipflexROM'])

#0から3行目のhipflexROMからhipabdROMまでを出力
print(file.iloc[:3,[0,2]])

上記のようなスライス表現を用います

スライス表現では、start:stop:stepの順に要素を指定して、抽出を行なっていきます

ilocでスライス表現をする場合には、stepは省略になりますが、locを使用する場合にはstepまで記載しないとエラーになることもあります

またリストでの表現でも可能です[a,b,c…]のように表現することでも、複数の要素を抽出することができます

外部からキーワードを入力して要素を抽出する

GUIに実装する場合などには、外部からキーワードを入力して、要素を抽出することも可能です

import pandas as pd
import tkinter as tk
import os
from tkinter import filedialog 
from scipy import stats

root=tk.Tk() 
root.title("test")
root.geometry("800x600")

frame=tk.Frame()
frame.grid(row=0)
var=tk.StringVar()
var1=tk.StringVar()
text=tk.Entry(width=20,textvariable=var)
text.place(x=500,y=100)

listbox=tk.Listbox(frame,height=30,selectmode="single")
listbox.grid(row=1,column=1)

def fileselect():
    global var
    type = [("CSV file", "*.csv")]
    file_path = tk.filedialog.askopenfilename(filetypes = type, initialdir = os.getcwd ())  
    csv_file = pd.read_csv(file_path, engine="python", index_col=None)
    i = var.get()
    if i in csv_file.columns:
        word = csv_file.loc[:,i].values
        listbox.insert(tk.END,word)

    
Button=tk.Button(frame,text="selectfile",command=fileselect,width=20)
Button.grid(row=3,column=1)

root.mainloop()

サンプルの動画ではボタンが2種類、リストボックスが2つになっていますが、
こちらのサンプルコードでは、それぞれ1つずつに変更をしています

    if i in csv_file.columns:
        word = csv_file.loc[:,i].values
        listbox.insert(tk.END,word)

上記コードを増やせば、抽出する項目を増やすことも可能です

その際にはグローバル関数も増やし、i=var.get()も増やしておく必要がありますので、注意してください

もし、グローバル関数を使わずに実装することができた方がいたら、DMやコメントをもらえると嬉しいです！

ixを使用した要素の抽出

ixを使用することで、公式ドキュメントでは非推奨となっているため、割愛しました

公式ドキュメント

公式ドキュメントは英語で書かれていますが、Google Chromeでページを開けば、翻訳してくれますので、参考にしてみてください

また、Qiitaではixを使用した時の困った例が挙げられています

python参考書籍

現場で使える！pandasデータ前処理入門機械学習・データサイエンスで役立つ前処理手法

posted with ヨメレバ

株式会社ロンバート翔泳社 2020年04月20日頃

楽天ブックス

Amazon

Kindle

Pythonで学ぶあたらしい統計学の教科書

posted with ヨメレバ

馬場真哉翔泳社 2018年04月19日頃

楽天ブックス

Amazon

Kindle

Python 実践データ加工/可視化 100本ノック

posted with ヨメレバ

下山輝昌/伊藤淳二秀和システム 2021年07月31日頃

pandasのデータフレームから任意の行・列を抽出する〜サンプルコード付き〜

syou0445 — Sat, 09 Oct 2021 19:10:21 +0000

Pythonでcsvデータを取り込んだ際、データフレームの形で取り込まれます

取り込んだデータから、特定のデータを抽出したい場合も多々あります

今回はデータフレームで取り込んだデータから、特定の行・列を抽出し、目的の形へと加工する方法について解説していきます

データフレームとは

データフレームとは、二次元の表形式データを指します

二次元データというのは1対複数の関係であるデータ形式のことを指しています

pandasには一次元のデータもあり、それをseriesと呼びます

データを扱う場合には、その多くが二次元データであるデータフレームになるかと思います

データフレーム3つの構造

データフレームを扱う際に以下の3つの構造については知っておいたほうが、今後のデータ加工もスムーズに進むと思います

values:実際のデータ
columns:列名（列ラベル）
index:行名（行ラベル）

データフレームを作成する

では今回の行・列抽出を行うためのデータフレームを作成していきたいと思います

import pandas as pd
# リスト型の配列を作る。
a = [,[20,50,30,40,70,60,90]] 
b = ['A列','B列','C列','D列','E列','F列','G列']
d = pd.DataFrame(a, columns=b)
print(d)

上記コードを入力後、実行すると、画像のような配列が出力されます

「a」「b」のデータ数を増やせば、データフレームの配列も増えていきます

import pandas as pd
# リスト型の配列を作る。
a = [,[20,50,30,40,70,60,90,55] ,,
[11,14,56,63,12,55,67,14],]
b = ['A列','B列','C列','D列','E列','F列','G列']
d = pd.DataFrame(a, columns=b)
print(d)

上記のように列数に対して、データの数が上回ると以下のようなエラーが出ます

  File "/opt/anaconda3/lib/python3.8/site-packages/pandas/core/internals/construction.py", line 568, in _list_to_arrays
    columns = _validate_or_indexify_columns(content, columns)

  File "/opt/anaconda3/lib/python3.8/site-packages/pandas/core/internals/construction.py", line 692, in _validate_or_indexify_columns
    raise AssertionError(

AssertionError: 7 columns passed, passed data had 8 columns


The above exception was the direct cause of the following exception:

Traceback (most recent call last):

  File "/Users/untitled0.py", line 14, in 
    d = pd.DataFrame(a, columns=b)

  File "/opt/anaconda3/lib/python3.8/site-packages/pandas/core/frame.py", line 570, in __init__
    arrays, columns = to_arrays(data, columns, dtype=dtype)

  File "/opt/anaconda3/lib/python3.8/site-packages/pandas/core/internals/construction.py", line 528, in to_arrays
    return _list_to_arrays(data, columns, coerce_float=coerce_float, dtype=dtype)

  File "/opt/anaconda3/lib/python3.8/site-packages/pandas/core/internals/construction.py", line 571, in _list_to_arrays
    raise ValueError(e) from e

ValueError: 7 columns passed, passed data had 8 columns

データ数と列数が一致してないですよ、ということです

データフレームを作成する場合には気をつけておきましょう

少しデータ数を増やして、それを加工していきます

import pandas as pd
# リスト型の配列を作る。
a = [,[20,50,30,40,70,60,90] ,,
[11,14,56,63,12,55,67],]
b = ['A列','B列','C列','D列','E列','F列','G列']
d = pd.DataFrame(a, columns=b)
print(d)

データフレームから抽出する

では、先ほど作成したデータフレームを元に行or列の抽出を行っていきたいと思います

特定の行の抽出

特定の行を抽出したい場合には:(コロン)で行番号を指定することで、可能となります

import pandas as pd
# リスト型の配列を作る。
a = [,[20,50,30,40,70,60,90] ,,
[11,14,56,63,12,55,67],]
b = ['A列','B列','C列','D列','E列','F列','G列']
d = pd.DataFrame(a, columns=b)
#1行目から3行目を抽出
print(d)

特定の列を抽出する

pandasで特定の列を抽出するには、カラム名(列名)を指定することで、特定の列を抽出することが可能です

import pandas as pd
# リスト型の配列を作る。
a = [,[20,50,30,40,70,60,90] ,,
[11,14,56,63,12,55,67],]
b = ['A列','B列','C列','D列','E列','F列','G列']
d = pd.DataFrame(a, columns=b)
#1行目から3行目を抽出
print(d['A列'])

[”]で指定せずに、.(ドット)を利用しても、特定の列を抽出することが可能です

import pandas as pd
# リスト型の配列を作る。
a = [,[20,50,30,40,70,60,90] ,,
[11,14,56,63,12,55,67],]
b = ['A列','B列','C列','D列','E列','F列','G列']
d = pd.DataFrame(a, columns=b)
#1行目から3行目を抽出
print(d.A列)

locを使用して特定の行・列を抽出する

locを使うことで、特定の行や列を抽出することが可能です

import pandas as pd
# リスト型の配列を作る。
a = [,[20,50,30,40,70,60,90] ,,
[11,14,56,63,12,55,67],]
b = ['A列','B列','C列','D列','E列','F列','G列']
d = pd.DataFrame(a, columns=b)
#A列とB列を抽出
print(d.loc[:,['A列','B列']])

import pandas as pd
# リスト型の配列を作る。
a = [,[20,50,30,40,70,60,90] ,,
[11,14,56,63,12,55,67],]
b = ['A列','B列','C列','D列','E列','F列','G列']
d = pd.DataFrame(a, columns=b)
#C列のみ抽出
print(d.loc[:,['C列']])

ilocで行・列を指定して、行・列を抽出する

ilocを使用することで、行・列を指定して、行・列を抽出することが可能です

import pandas as pd
# リスト型の配列を作る。
a = [,[20,50,30,40,70,60,90] ,,
[11,14,56,63,12,55,67],]
b = ['A列','B列','C列','D列','E列','F列','G列']
d = pd.DataFrame(a, columns=b)
#すべての行と1列目を抽出
print(d.iloc[:,1])

import pandas as pd
# リスト型の配列を作る。
a = [,[20,50,30,40,70,60,90] ,,
[11,14,56,63,12,55,67],]
b = ['A列','B列','C列','D列','E列','F列','G列']
d = pd.DataFrame(a, columns=b)
#1行目と2列目を取得
print(d.iloc,)

locやilocを使った詳しい解説はこちらを参考にしてください