Pythonを使ってデータ分析をできるようになりたいけど、Pythonの統計学の本はたくさんの種類があってよくわからない。
本当に本で統計学を学んPythonを扱えるようになるのだろうか?
独学で学んだ後に、データ分析のエンジニアとして働くためにはどうしたらいいだろう?
こういった疑問に答えます
本記事のテーマ:Pythonで統計学を学ぶ際のおすすめの本
この記事を書いている私はPythonの統計学を本を中心に学んできました
独学で半年程度学んできましたが、ある程度のものであれば、作れるようになってきました
・twitter自動化プログラム
・ポイントサイト自動化プログラム
・統計ソフト
・SNS用画像編集ソフト
独学でもこれくらいは作れるようになりますので、安心してください
過去のツイートですが、エンジニアの方でもプログラミングの学習時間は3ヶ月程度と言っていますね
プログラミングスキルを身につけたいなら、期限は3ヶ月にするといいですよ。
独学でもスクールでも良くて、3ヶ月で200時間くらいを勉強すれば良い。その後は継続して学べる環境に身を投じる感じ。就職orフリーランスコミュニティに入るなど。プログラミング学習に半年とかかけたら、心折れますので— manabu.nft (@manabubannai) May 21, 2018
僕は半年くらい経っていますが、一日の学習時間が短いからです
まとめて時間が取れる場合には、3ヶ月でOKだと思います
以下の記事では、ゼロからPythonで統計学を学べるように作っており、統計学を学ぶメリットについても解説しているので、こちらも参考にしてみてください

Contents
Pythonで統計学を学ぶ際の本を探しているならば、おすすめは「Pythonで学ぶ統計学の教科書」

Pythonで統計学を学ぶ際の本を探しているならば、「Pythonで学ぶ統計学の教科書」一択です
こちらの書籍は基本的な統計学の基礎からPythonのコード、データの可視化まで網羅しています
データの可視化であれば、このような可視化まで行えるようになります
これ一冊あれば、データ分析に必要なことを学ぶことができます
広く学ぶことができるのが「Pythonで学ぶ統計学の教科書」のメリットですが、
データ分析に関しては、「データ解釈学」がおすすめ
統計学とセットで学ぶことで、データ分析のエンジニアに近づくことができます
体験談:筆者は本を中心にPythonで統計学を学んできた
私自身が大学院時代にデータ分析をする際、Pythonを使用していました
その時にこの書籍を参考に、統計検定などを行い、学会発表もしてきたため、
「Pythonで学ぶ統計学の教科書」さえあればOKです
Pythonと統計学

AI開発においてPythonが用いられることが多いですが、機械学習やディープラーニングの根底には統計学が密接に関係しています
そのため、Pythonと統計学は切っても切れない関係です
また、データ分析向けのPythonディストリビューションであるAnacondaというものがあります
こちらは科学計算(データサイエンスや機械学習、大規模データ処理)のためのものです
こちらを使用することで、パッケージ管理やデプロイメントを簡単に行うことができます
Anacondaの詳細はこちらから

Pythonで機械学習を実装したい方は、こちらの記事で解説しているので、こちらから機械学習について学んでみてください

Pythonで統計学を学ぶメリット

Pythonで統計学を学ぶメリットは、科学計算処理に必要なライブラリが充実している点です
Pythonのライブラリには、統計学に必要な専門的な計算式が含まれており、基本的なデータの扱い方がわかっていれば、統計検定を自由に扱うことができます
Pythonで統計学を学ぶメリットの詳細はこちらの記事を参照ください

Pythonで統計学をwebで学ぶ方法

Pythonで統計学を本で学んだ後に、webでも学びたくなる場合があります
そういった場合にはこちらがおすすめです
無料でこのクオリティのものはまだみたことがありません
多少のお金を払う余裕がある場合におすすめなのは「世界最大級のオンライン学習サイトUdemy」です
Udemyは元々の値段が高めに設定されていますが、クーポンの配布などが頻繁に行われているため、1/10くらいの値段で購入することができます
統計学の基礎から学びたい場合には、「統計学入門」がおすすめ

Pythonとは関係なく、統計学を基礎から学びたい方は、「統計学入門」がおすすめです
合わせて「完全独習統計学入門」も読むことで、統計学の基本的な事項は網羅することができます
Pythonで統計学を学び、将来的にデータ分析のエンジニアになりたい場合は「データミックス」がおすすめ

データミックス(datamix)の基本情報は、次の通りです。
各項目 | 概要 |
---|---|
スクール名 | datamix |
運営会社 | 株式会社データミックス |
コース名 | データサイエンティスト育成講座 データサイエンス基礎講座 |
料金 | 入学金:27,500円 (税込) 一括申し込み:742,500円 (税込) ブートキャンプステップ:165,000円 (税込) ベーシック・アドバンス・ インテグレーションステップ:[各] 192,500円 (税込) |
対象 | AI導入プロジェクトやデータ活用プロジェクトを推進するビジネスパーソン |
学習可能な言語 | Python(Python入門講座で学習可能) |
受講条件 | データサイエンティスト講座:入学試験に合格する必要あり データサイエンス基礎講座:特になし |
データミックスは、年間2,200名以上が受講するデータサイエンスに特化したスクールで、全くの未経験者でも通用するデータサイエンティストの育成を行っています
データサインティストに求められるのスキルは、
- 統計学
- 機械学習
- 人工知能(AI)
- プログラミング
といった幅広い分野を網羅している必要があります
データミックスでは、上記4つのスキルを未経験からでも学べるようにカリキュラムが構成されています
datamix(データミックス)で学んだ後の将来
データミックスで学んだ卒業生は、データサイエンスを活かして、コンサルタント事業やデータエンジニア、分析コンサルタントなどの分野で活躍しています
受講生の成果物として、「FC東京がJリーグ上位を目指すための提案」や「機械学習によるCOVIDワクチンの実験条件探索」などがあります
どちらの方も、プログラミング未経験でpythonを使って、分析を行っています
データミックスでは、python未経験者でも動画のような解析を行えるようにカリキュラムが構成されています
※無料オンライン相談や個別相談などさまざまなイベントが開催中
Pythonで統計学を効果的に学ぶ方法

Pythonで統計学を効果的に学ぶには、いくつか方法があります
私はPythonで統計学を学んでいるので、実際にPythonで統計学を学ぶ手順について解説したいと思います
環境構築

まずはPythonを扱えるように環境構築を行う必要があります
統計学を学ぶのであれば、Anacondaを使用するのがおすすめです

Anacondaの環境構築が完了したら、syderを起動させます

Pythonの基礎文法と用語の理解

まずは統計学の勉強を進める前に、Pythonの基礎文法と用語の理解を進めましょう
あくまでもPythonという言語で統計学を学んでいくため、Pythonの基礎文法がわからなければ、統計学の学習に進むことができません
Pythonのライブラリやモジュール、変数、if文などについては知っておいたほうがいいと思います



統計学の基本的な用語と考え方を学ぶ

統計学には推測統計学・記述統計学・ベイズ統計学に分けられます
今回学ぶのは、推測統計学と記述統計学で、一般的に「統計学」と呼ばれるものです
推測統計学

推測統計学は母集団から一部のデータ(サンプル)を抽出して、サンプルから母集団に関する推論を行います
サンプルデータから得られた情報をもとに、母集団の平均や比率、関連性などを予測し、予測がどの程度信頼できるのかも評価します
記述統計学

記述統計学は、集められたデータを集計し、可視化を行います
記述統計学で一般的に用いられているのは、平均値や中央値・最頻値などです
Pythonを使えば平均値や中央値、分散などをまとめた要約統計量というものを1行で出力することが可能です
統計学の基本的な用語と考え方について学びつつ、Pythonの基礎文法などを同時に学んでおくと効率よく学ぶことができます
統計検定の考え方について学ぶ

推測統計学は仮説検定を用いて、研究対象の性質について仮説を立てて、その仮説を検証することを目的としています
仮設検定の手順は、
- 母集団に対する仮説を立てる
- 母集団からサンプルを抽出する
- 抽出したサンプルを適切な検定手法で検証する
という流れになります
相関関係の考え方について学ぶ
相関関係とは、Aという値が高く(低く)なれば、一方Bという値も高く(低く)なる、というのを相関関係と呼びます
この時、どのくらい関係しているのか?ということを示すのが、相関係数です


また、相関関係と因果関係を混同してしまう場合があるので、こちらの書籍で相関関係と因果関係について整理しておくことをおすすめします
ある程度の理解が得られたら、以下の順に進めていきましょう
- 【pythonで統計学】ヒストグラムとpythonでの作成方法
- 【pythonで統計学】統計分析におけるデータの種類と扱い方
- 【pythonで統計学】データの代表値を算出する
- 【pythonで統計学】データのばらつきを表す散布度について(四分位数を中心に)
- 【pythonで統計学】統計解析に必須の分散と標準偏差・平均偏差について
- 【pythonで統計学】データのばらつきを示す変動係数の求め方
- 【pythonで統計学】ノンパラメトリックとパラメトリック検定について
- 【pythonで統計学】pandasを使って要約統計量を算出する方法
- 【pythonで統計学】正規性の検定(シャピロウィルク検定etc)のかけ方
- 【pythonで統計学】マンホイットニーのU検定を実施する
- 【pythonで統計学】ウィルコクソン符号付き順位検定
- 【pythonで統計学】等分散性の検定について(ルビーン検定・バートレット検定)
- 【pythonで統計学】t検定のかけ方
- 【pythonで統計学】95%信頼区間の求め方
上記のリンクから統計学に関する情報は概ね網羅することができるようになっています
2群の比較までならこれでOKです。回帰分析などは機械学習に含まれるので、機械学習の項目で説明をしていきます

また、統計学を学ぶなら、p値だけではなく95%信頼区間についてもしっかりと理解しておくことが大切です
※無料オンライン相談や個別相談などさまざまなイベントが開催中
ビジネスにも活用できる統計学

統計学はビジネスにおいても活用することができ、マーケティング領域においては絶大な効果を発揮します
特に回帰分析や相関関係はよく使用されます

ここまで学習することができたら、求人を確認しておきましょう
求人の「応募資格」を確認することで、自分に足りない部分を把握することができます
まとめ

- Pythonはデータ分析のライブラリが方法なので、統計学を学ぶのに有用
- 統計基礎は機械学習に通じるので、Pythonで学べばデータサイエンティストも目指せる
- Pythonの基礎と統計学の基礎を同時に学び、実装していく