All Articles

エンジニアがビッグデータ関連技術の全体像を学ぶための書籍紹介

ビッグデータという言葉は 2021 年現在もはや全然真新しいものではなくなっていますが、具体的にどのような技術を使ってどう処理するか、体系的に学ぶ方法は意外と多くないです。

この記事では、そんなビッグデータを取り扱うための技術について、全体像を学ぶための書籍を紹介します。

[増補改訂]ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ

ビッグデータ関連技術を学ぶ入門として定番の解説書です。

  • データレイク・データウェアハウス・データマートといったビッグデータの基本パターン
  • Hadoop ファミリを活用した分散処理
  • データパイプラインの構築

といった、ビッグデータを扱う上での基礎知識を体系的に学ぶことができます。

この 1 冊でビッグデータの基礎知識をかなりおさえられるので、非常におすすめです。

2021 年 2 月に出版された増補改訂版では、機械学習や MLOps といった最近の話題についても追記されています。

ビッグデータ解析の現在と未来 Hadoop、NoSQL、深層学習からオープンデータまで 共立スマートセレクション

こちらもビッグデータ関連技術の解説書です。

Hadoop ファミリによる分散処理やストレージエンジン、NoSQL データベース、機械学習、深層学習などについて書かれています。

大統領選挙での活用事例など、応用例も記載されています。

『ビッグデータを支える技術』と比べると、活用方法などに注目して書かれている書籍になります。

AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門

AWS でのデータレイクを中心とした分析基盤の構築について書かれた書籍です。

データレイクに加えて、ETL やデータウェアハウス、BI などについても具体的に解説されています。

先に紹介した 2 冊と比べると、より具体性が高く、Tips なども多数解説されています。

特に AWS でデータ基盤を作りたい場合に、事前に読んでおくべき本として非常におすすめです。

機械学習の活用

ここまで、ビッグデータ関連技術の解説書を紹介してきました。

ビッグデータと関係する分野としては、機械学習もかなり一般的になっています。

最近は機械学習を実際のアプリケーションに適用する方法として、「MLOps」と呼ばれる分野も注目されています。

MLOps については、オライリーの

などで解説されています。

また、GCP における MLOps の実践は、

などで学ぶことができます。

MLOps はまだ注目され始めたばかりの分野ですが、ビッグデータの取り扱いとあわせて学んでおくと役立つと思います。