データ分析をPythonで行いたい初心者に必須の書籍
今回は記事のタイトルにある通り、Pythonでデータ分析を行う上での教科書をご紹介したいと思います。
本のタイトルは「Pythonによるあたらしいデータ分析の教科書」です。
⇒Pythonによるあたらしいデータ分析の教科書
これからPythonを使ってデータ分析を行う人にとっては必須の書籍ではないかと思っています。
内容自体は基本的なことが多く書かれています。
基本的なことですが、Pythonでデータ分析を行おうとする人にとってはすべて必要なことが載っています。
書籍の主な内容を箇条書きすると以下のようになります。
①データ分析エンジニアの役割
②Pythonと環境
③数学の基礎
④ライブラリによる分析の実践
⑤データ収集と加工
たったこれだけ?と思うかもしれませんが、それぞれが分析を行う上で必須のものであり、大事なことを凝縮した感じですね。
まず、①ですが、これはデータ分析エンジニアの立場の人がどのようなことを行っていくのかが書かれています。
データ分析エンジニアと聞くと、データを分析するのがメインの仕事のように思われるかもしれませんが、実際の仕事の大半は前処理です。
前処理って何?と思う人が多いと思います。
前処理はデータハンドリングと呼ばれ、データの入手や加工、つなぎ合わせや可視化などを示します。
このデータハンドリングは業務の8割9割を占めるといわれています。
これを聞くとこの処理がどれだけ重要な業務になるかがわかるかと思います。
なので、この前処理ができなければ分析の出発点に立つことすらできないのです。
データ分析エンジニアを志す人でも、初めてこれを聞くと驚くと思いますが、この書籍には必ず知っておいてほしいデータ分析の実態が書かれています。
②はPythonでこれからデータ分析を行う上でも環境の整え方が書かれています。
この書籍では、Pythonの実行環境を構築する手段としてAnacondaが紹介されています。
Anacondaはこの本で紹介されているJupyter Notebook、Numpy、pandas、Matplotlib、scikit-learnなどを含めて、多くのデータサイエンスで使用するライブラリを同梱しています。
上記に挙げたライブラリは初心者の人にとってはわからないものだと思うので、今はわからなくても大丈夫です。
③の数学に関しては苦手意識を持っている人が多いと思いますが、データ分析を行う上で必要最低限の数学はわからないといけません。
内容は、線形代数、解析学、確率統計などです。
これを聞くと難しそうですが、書いてあるのは基本的で内容なので、高校で数学を履修していれば困惑することはないと思います。
もし、わからない内容ばかりと感じた人は、この書籍を見ながらネットで調べてみましょう。
④でいよいよ先ほど挙げたライブラリを用いての分析ということになります。
この書籍のメインといえるところだと思います。
ライブラリは結構たくさんあって、最初は大変だと感じるかもしれませんが、避けては通れない部分なので、必ず理解しておきましょう。
ライブラリを少し紹介しておこうと思います。
まずはNumpyです。
Numpyを使用するとPythonの標準リスト型に比べて多次元配列のデータを効率よく扱うことができます。
データの中には大量の数値があるものもあります。
この大量のデータを処理、計算するのに、このNumpyは役に立ちます。
次のpandasはPythonでのデータ分析のツールとして最も活用されており、データの入手や加工など多くのデータ処理に使われています。
データ分析をする上では前処理が大切とお伝えしましたが、Pythonではこのpandasを用いて処理することができ、とても便利でよく使うものとなります。
最後に、Matplotlibを紹介しておきましょう。
MatPlotlibはPythonで主に2次元のグラフを描写するためのライブラリです。
これを使うことでデータを可視化できます。
可視化することで、ただの数値だったものを目に見える形で表現でき、分析する上では欠かせないものですね。
最後の⑤ですが、ここでは主にスクレイピングに触れています。
スクレイピングとはインターネット上のWebページから情報を取得することを指します。
Webページの内容の多くはHTMLで記述されていますが、文字の大きさや色、レイアウトなどを示すHTMLタグと内容を示すテキストが入り混じって複雑な構造になっています。
そのため、HTML中のデータ部分のみをプログラムに組み込むことは簡単ではありません。
Webページの内容をプログラミングとして使用するために、必要な要素のみを抜き出すことをスクレイピングといいます。
このスクレイピングはデータ収集の手段の1つとして活用されています。
これで、一通り書籍の中を紹介したことになります。
データ分析をPythonで行う人にとっては、最初に手に取ってほしい書籍の一つです。
詳しい内容は、購入して勉強してほしいと思います。
⇒Pythonによるあたらしいデータ分析の教科書