データ分析

お勧めのデータ分析・機械学習の本の紹介

本の紹介

本記事では、私が実際に購入したデータ分析・機械学習関連の本の中で「買って良かった」と思った本について、いくつか紹介します。

私自身も全てを読破しているわけではなく、通読した本もあれば、辞書代わりに使っている本もあります。

なおデータ分析や機械学習で使用する言語と言えば、RもしくはPythonですが、紹介する本はPythonに偏っています。

私が実際の業務ではPythonを使っており、Rはほとんどやった事がない事が理由なので、その点はご了承ください。(本サイトの他の記事もPythonに偏ってます)

時間がない人向け

Iシステムエンジニアがいきなりデータ分析・機械学習をやれと言われてた・・

そんなじっくり勉強する時間がない人向けの本を紹介します。

あくまでも「とっかかりのための本」なので、本節で紹介する本を読んで得られる知識でデータサイエンティストになった気にはならないでください。

なお、何かしらのプログラミング言語の知識があることを前提とします。

Python+機械学習でとりあえず実装したい

Pythonを実際に使って機械学習を実装するための本です。

あくまでも「Pythonで機械学習ってこうやって実装するんだ」ということを体験するための本です。

データ分析・機械学習の基本的な考え方(教師あり/教師なし学習など)についても記載されております。

アルゴリズムについての説明の記載も多少はありますが、本書に書いてあることだけで理解するのはなかなか難しいでしょう。

それでも、時間がない人がとっかかりで学ぶためには、良い本だと思います。

統計学の基本を抑えたい

高校や大学を卒業して数年経過した後に、統計を勉強しなおすのはなかなか骨が折れます。

本書は、そういった人にも比較的わかりやすく書かれています。

「マンガでわかる・・」となるとちょっと抵抗があると思いますが、内容自体はちゃんとしています。

表紙のせいで会社で読みにくいのが難点ですが。。

時間が多少ある人向け

本節では、時間が多少ある人用の本を紹介します。

ここに記載されている本を読破すれば、機械学習を「使う」ことは、ある程度できるようになると思います。

Pythonをちゃんと勉強したい

Pythonの基本的な文法や概念について学ぶことができます。

他の言語の経験がある人ならば簡単に読み進められると思います。(私が持っているのは第1版ですが、リンク先は第2版です。)

Pythonで統計・機械学習を実装したい

 

本書を読めば統計と機械学習全般についての基本について、Pythonで実装しながら身につける事ができます。

ただしディープラーニング、強化学習については記載されていないのでご注意ください。

じっくり時間をかけて学びたい人向け

本節では、本気でデータサイエンティストや機械学習エンジニアを目指す人のための本について紹介します。

読み込むためにはかなりの労力が必要です。(私も全部読み切ったわけではありません・・)

Pythonを使いこなしたい

 

Pythonで良いコードを書くための本です。

どのような記載方法が良いのかなどを理由とともに説明しており、実装する際に参考になります。

統計をちゃんと勉強したい

 

統計の教科書として定番となっている本です。

タイトルに「入門」と書いてありますが、文系の方や理系だとしても大学を卒業してしばらく経過している人には、かなり難しく感じるかもしれません。

ただし本書を読めば統計学の基本的な知識を身につけることはできるので、本気でデータサイエンティストを目指す方にはおすすめです。

機械学習の理論を学びたい

 

機械学習の分類を数式レベルで理論的に理解するための定番の教科書になっています。

こちらもタイトルに「はじめての」と記載されていますが、やはり文系の方や理系だとしても大学を卒業してしばらく経過している人にはかなり難易度が高いでしょう。

業務において本書に書かれている数式レベルの内容を理解するべきかどうかは、議論が分かれるところですが、機械学習エンジニアではなく、データサイエンティストを名乗るならば、読んでおきたい本ではあります。

なお、私自身は一応、全編に目を通しましたが、数式は全て追えてません・・

機械学習を網羅的に学び実装したい

 

機械学習全般(ディープラーニング、強化学習も含みます)についてPythonの豊富な実装例とともに学ぶ事ができます。

内容的にはわかりやすいですが、約800ページと分厚いです。

実装しながら徐々に読み進めるのが一番良いですが、業務で必要になった箇所について辞書代わりに使うのも良いかと思います。

ただし4章までは、機械学習モデルを作成する際の基本的な考え方について記載されているので、全て読み進めることをお勧めします。

特に、2章の「エンドツーエンドの機械学習プロジェクト」は、実務で機械学習プロジェクトを実施するときに大変参考になります。

機械学習の実践的な手法を知りたい

 

本書には、機械学習のプロジェクトを実施するために必要な「より実践的な内容」が記載されております。(機械学習の基礎知識があることを前提としています。)

理論よりも実践に重みを置いているため、読みやすい構成になっています。

機械学習の予測理由を説明をしたい

 

統計モデルに比べて機械学習モデルはその予測理由を説明することは難しいとされています。

しかし「なぜそう予測したかわからない」ではクライアントも満足せず「説明可能なAI」 の必要性が高まってきております。

本書ではモデルの予測結果を解釈するための4つの方法(PFI、PD、ICE、SHAP)について紹介しております。

本サイトでも以下の記事を書く際に参考にしました。

mdi-pfi-shap比較
重要度は信用できるか?Permutation Feature Importance(PFI)を試してみた。「性能が良いのはわかった。でも理由が知りたい。」 機械学習においてモデルの説明性が求められる事は多いです。 「何故かわからな...

データ分析・機械学習プロジェクトの進め方を知りたい

本書は実際のデータ分析業務について35の失敗事例(つまりアンチパターン)をもとに、どのような対策をすれば良いかについて記載されています。

クライアントへの報告の仕方やクライアントの要望にどのように対処するかなどについても記載があり、データ分析業務を実施する場合に非常に参考になる内容が書かれています。

マニア向け

本節では、学問的に興味が広がってしまって色々と知りたくなった人向けの本について紹介します。

私自身、なんとなく興味が出て買ってしまいました・・

なお、実際に仕事に役に立つかと言えば微妙なので、その点についてはご留意ください。

統計学の歴史を知りたい

 

検定や有意差などについて調べている時に本書にたどりつきました・・

歴史的な経緯を知ることによって理解することもあるので、統計について深く知りたい方にはお勧めです。

統計学の概念を知りたい

 

さらにマニアックな内容です。

「統計と機械学習の違い」や「頻度主義とベイズ主義の違い」について調べているときに本書に辿り着きました。

個人的には、記述統計をデータの一元論、推測統計をデータとモデルの二元論で捉えることや、予測に役立つモデルをプラグマティズム(簡単にいうと実用主義)の概念で説明していることが興味深かったです。

ただし哲学についての知識がないと全く意味不明です。

最後に

現代では、わざわざ本を買わなくても、ネットを見れば無料の情報があふれています。

しかし、ネットの情報は玉石混交なので、良い情報を選別するためには手間がかかります。

ある程度、体系的に知識を得るためには、やはり本は数冊持っておいた方が良いでしょう。

本記事がそのための参考になれば幸いです。