数年前は時々耳にする程度であった “MLOps” という分野は、今年 2021 年で爆発的に注目を集めています。
1 年前にはほとんどなかった日本語の書籍も、2021 年 10 月時点ではかなり充実しており、2021 年に IT 業界で注目されている技術の一つとはっきり言えるほどになっています。
この記事では、そんな “MLOps” に関連する書籍と、前提として必要なデータエンジニアリングに関する書籍を紹介していきます。
“MLOps” に関連する書籍
仕事ではじめる機械学習 第2版
2021 年 4 月発売のオライリーの書籍です。
機械学習を仕事で使うために必要な知識を一通り解説している書籍です。
6 章が MLOps に関する内容であり、機械学習基盤における CI / CD / CT (継続的トレーニング) や、実験環境の整備、サービング、監視などについて、様々なツールを紹介しながら簡単に解説しています。
MLOps に限らず、機械学習で必要な知識全般を学びたい、という場合に適していると思います。
機械学習による実用アプリケーション構築 ―事例を通じて学ぶ、設計から本番稼働までのプロセス
こちらも 2021 年 4 月発売のオライリーの書籍です。
タイトル通り、本番で機械学習を用いたアプリケーションを実稼働させるための解説書です。
具体的に特定のツールを解説するというよりも、どのような考え方でどう設計するのかといった解説になっています。
Google Cloud Platformではじめる機械学習と深層学習
2018 年 12 月発売の、GCP における機械学習を用いたアプリケーションの開発に関する解説書です。
当時まだ “MLOps” という単語が一般的ではなかったためだと思いますが、この書籍では “MLOps” という単語は登場しません。
ですが内容としては
- 機械学習システムのパイプライン
- モデルのサービング
- モデルやデータのバージョニング
など、今で言う “MLOps” についての解説書です。
この記事で紹介する中では古い (発売から 3 年弱) 書籍ではありますが、初心者向けに “MLOps” の考え方を解説した書籍としてはかなりおすすめです。
GoogleCloudPlatform 実践 機械学習基礎開発MachineLearning/データ分析
2020 年 2 月発売の、GCP における機械学習の解説書です。
AutoML や BigQuery ML といった専門知識なしで使える機械学習サービスの解説から、Cloud Dataflow などを使ったデータ処理など、GCP におけるデータの取り扱いについて幅広く解説されています。
データ処理に関する解説が多いですが、最後の 2 ページで “MLOps” について触れられており、これが日本語で “MLOps” という単語を解説した最初の本なのではないかと思います。
AIエンジニアのための機械学習システムデザインパターン
2021 年 5 月発売の、メルカリで MLOps チームのマネジャーをしていた著者によるデザインパターンの解説書です。
メルカリが公開した「機械学習システムデザインパターン」がもとになっています。
機械学習を用いたアプリケーションの構成を具体的にパターン化して解説されており、具体的な構成イメージが湧かないという方におすすめです。
また、6 章で解説されている内容は、機械学習システムに限らず、サービスメッシュ (Istio) の活用例・ハンズオンとしてもおすすめできます。
余談ですが、アンチパターンに対してひねり出したと思われる利点が、ユーモアがあって面白かったです。
入門 機械学習パイプライン ―TensorFlowで学ぶワークフローの自動化
2021 年 9 月発売の、TensorFlow を用いた機械学習パイプラインの解説書です。
Tensorflow Extended (TFX) や Kubeflow Pipelines などを用いた機械学習パイプラインの構築について手厚く解説されています。
MLOps の入門一冊目としてはハードルが高めだと思いますが、MLOps の概要を学んだ上で、実際にこれらのツールをさわってみたい、といった際におすすめです。
未発売の書籍
この記事の執筆時点では未発売ですが、2021 年 10 月中に発売予定の書籍として、以下の 2 冊があります。
目次を見た限り、どちらも MLOps の知見を得るのにとても良さそうです。
データエンジニアリングに関する書籍
MLOps について実際に検討する上では、前提として「データ分析基盤」の構築のような、いわゆる「データエンジニアリング」の知識も重要です。
ここからは、「データエンジニアリング」に関する書籍を紹介していきます。
[増補改訂]ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ
2021 年 2 月発売の、いわゆる「ビッグデータ」の解説書です。
- データレイク、データウェアハウス、データマート
- ETL
- BI
- Hadoop や Spark などによるビッグデータ処理
- ワークフロー管理やデータパイプライン
など、ビッグデータ関連の基礎知識を一通り解説しており、増補改訂版では “MLOps” についても触れられています。
いわゆる「データ分析基盤」のようなものについて知りたいという方には、まずこの本をおすすめしたいです。
データエンジニアに限らず、IT エンジニアに広くおすすめできる一冊です。
Google Cloudではじめる実践データエンジニアリング入門[業務で使えるデータ基盤構築]
2021 年 2 月発売の、GCP におけるデータ基盤の構築についての解説書です。
BigQuery、GCS、Cloud Dataproc、Cloud Composer などなど、GCP の各種サービスを使ってどうデータ基盤を構築するかが丁寧に解説されています。
画面キャプチャなども豊富で、あまり前提知識がなくても読みやすい内容になっています。
GCP でのデータ基盤について学びたい場合、今ならこちらが一番おすすめの書籍になります。
AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門
2020 年 7 月発売の、AWS におけるデータ分析基盤の構築に関する解説書です。
タイトルは「データレイク」となっていますが、データウェアハウス (Redshift)、ETL (Glue)、BI (QuickSight) など、周辺サービスについてもしっかり解説されています。
データ形式やセキュリティについてなど、実際にデータを処理するときに知っておくと役立つポイントも色々解説されており、非常に参考になります。
AWS でのデータ分析基盤構築について学びたい際には、とてもおすすめできる一冊です。
おわりに
以上、2021 年注目の分野である “MLOps” に関連する書籍を紹介してきました。
“MLOps” はバズワードだと言われることもありますが、機械学習をビジネスに役立てる上で重要な分野であることから、個人的には一過的な流行ではないと思っています。
日本語の書籍がたくさん出ている以上、もはや最先端の分野とは言えないとも思いますが、今おさえておけば面白い分野ではあると思います。
また、MLOps について検討する際は、前提として “DevOps” や “SRE” など、いかにプロダクションレディなシステムを扱うか、といった分野の知識があると役立ちます。
それらの分野については、例えば以下のような書籍がおすすめです。
- Release It! 本番用ソフトウェア製品の設計とデプロイのために
- SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
- プロダクションレディマイクロサービス ―運用に強い本番対応システムの実装と標準化
これらの書籍については こちら の記事にも書いているので、是非ご覧ください。