ビッグデータという言葉は 2021 年現在もはや全然真新しいものではなくなっていますが、具体的にどのような技術を使ってどう処理するか、体系的に学ぶ方法は意外と多くないです。
この記事では、そんなビッグデータを取り扱うための技術について、全体像を学ぶための書籍を紹介します。
[増補改訂]ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ
ビッグデータ関連技術を学ぶ入門として定番の解説書です。
- データレイク・データウェアハウス・データマートといったビッグデータの基本パターン
- Hadoop ファミリを活用した分散処理
- データパイプラインの構築
といった、ビッグデータを扱う上での基礎知識を体系的に学ぶことができます。
この 1 冊でビッグデータの基礎知識をかなりおさえられるので、非常におすすめです。
2021 年 2 月に出版された増補改訂版では、機械学習や MLOps といった最近の話題についても追記されています。
ビッグデータ解析の現在と未来 Hadoop、NoSQL、深層学習からオープンデータまで 共立スマートセレクション
こちらもビッグデータ関連技術の解説書です。
Hadoop ファミリによる分散処理やストレージエンジン、NoSQL データベース、機械学習、深層学習などについて書かれています。
大統領選挙での活用事例など、応用例も記載されています。
『ビッグデータを支える技術』と比べると、活用方法などに注目して書かれている書籍になります。
AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門
AWS でのデータレイクを中心とした分析基盤の構築について書かれた書籍です。
データレイクに加えて、ETL やデータウェアハウス、BI などについても具体的に解説されています。
先に紹介した 2 冊と比べると、より具体性が高く、Tips なども多数解説されています。
特に AWS でデータ基盤を作りたい場合に、事前に読んでおくべき本として非常におすすめです。
機械学習の活用
ここまで、ビッグデータ関連技術の解説書を紹介してきました。
ビッグデータと関係する分野としては、機械学習もかなり一般的になっています。
最近は機械学習を実際のアプリケーションに適用する方法として、「MLOps」と呼ばれる分野も注目されています。
MLOps については、オライリーの
などで解説されています。
また、GCP における MLOps の実践は、
などで学ぶことができます。
MLOps はまだ注目され始めたばかりの分野ですが、ビッグデータの取り扱いとあわせて学んでおくと役立つと思います。