およそデータを扱う全ての研究者や技術者にとって、とても役立つ情報がテンコ盛りの書籍ではないでしょうか。 情報科学は言うに及ばず、その他の理工学、医学、経済学、心理学や言語学などの研究に従事する者に有益と思います。 深層学習を含む機械学習の書籍は、各種の手法やプログラミングについて解説しているものは多いです。しかし、そもそもの「プロジェクトの全般的な進め方」や「データの具体的な処理方法(収集、加工)」を実務レベルに役立つように具体的に解説している書籍は少ないと思います。 例えば、本書籍では、以下のようなテーマを扱っています。 ・モデルの改善サイクル ・機械学習に向いている/向いていない問題設定 ・ドメイン知識の組み込み ・機械学習モデルの説明性 ・学習済みモデルや利用可能なデータセットの探し方 ・モデルサイズの縮小化(知識蒸留、枝刈り(剪定)、量子化、Switch Transformer) ・機械学習情報の収集方法(Twitter、ブログ、ニュースレター等) ・論文の効率的な読み方 ・転移学習 ・短絡学習 ・カテゴリーデータの処理(ワンホットエンコーディング) ・学習データの前処理(標準化、ターゲットエンコーディング) ・希少データへの対応 ・データ分割方法(学習、検証、評価) ・評価情報漏洩 ・N分割交差検証 ・データ拡張 ・ドメインシフト問題(地域別データなど) ・欠損値への対応 ・ラベル間違い(Noisy Label Problem)への対応(ラベル平滑化、洪水法、カリキュラム学習、交差検証)等 これらのテーマが、著者の豊富な実務経験をもとに、概念図を用いて分かり易く説明されています。最近の若手の研究者は、ここまで自らのノウハウを公開してくれるものなのですね。お得感満載の書籍で、大満足でした。