書籍の紹介とともに学習の順番も考慮した。
1.布留川英一『OpenAI GPT-4/ChatGPT/LangChain 人工知能プログラミング実践入門』
出版社サイト:https://www.borndigital.co.jp/book/30254.html

OpenAI GPT-4/ChatGPT/LangChain 人工知能プログラミング実践入門
2. ML_bear『つくりながら学ぶ!AIアプリ開発入門 – LangChain & Streamlit による ChatGPT API 徹底活用』
リンク先:https://zenn.dev/ml_bear/books/d1f060a3f166a5
目次
Chapters
Chapter 01無料公開
はじめに
Chapter 02無料公開
まずは環境準備をしよう
Chapter 03無料公開
最初のAIチャットアプリを作ろう
Chapter 04無料公開
AIチャットアプリを作り込もう
Chapter 05無料公開
AIチャットアプリをデプロイしよう
Chapter 06無料公開
はじめてのAIアプリを作ろう – WEBサイト要約
Chapter 07無料公開
Youtube動画の要約をしよう
Chapter 08無料公開
長時間Youtube動画を要約しよう
Chapter 09無料公開
PDFに質問しよう (前編: PDF Upload & Embedding)
Chapter 10無料公開
PDFに質問しよう (後編: RetrievalQA)
Chapter 11無料公開
あとがき & Appendix
Chapter 12
おまけ (投げ銭お礼用コンテンツ)
3.じゅ~しぃ~すくりぷと
『AIアートの新時代:CLIPとStable Diffusionを活用した画像生成技術とその応用』
リンク先:https://booth.pm/ja/items/4820110
目次
各章の紹介
- 機械学習入門:
本章では、機械学習とAIの違いやディープラーニングの特徴、基本的な数学知識、GPUの環境構築方法、CNNやTransformer、Attention機構などの基本的な概念を解説します。画像生成ではTransformerで使われているAttentionが非常に重要な役割を持つので、ここを集中的に解説します。 - CLIP:
CLIPは、マルチモーダルモデルを活用して言語と画像を紐付ける技術です。本章では、CLIPのモデル構造や計算方法、分類や検索への応用、画像生成モデルとの関連性などについて詳しく解説します。生成には直接関係ないモデルですが、CLIPを使うと画像生成の定量評価や、生成以外のタスクの応用が可能なので、ここで詳しく取り上げます。 - Stable Diffusion入門:
Stable Diffusionは、WebUIやDiffusersを使って画像生成を行う技術です。本章では、ローカルGPUでのText2Image生成やImage2Image変換、モデル構造、ブラウザでのアプリ作成方法などについて紹介します。本書は主にDiffusersでのプログラムベースの画像生成を行うものです。 - Embedding分析:CLIPと画像生成:
本章では、CLIPのText Embeddingを活用した類似度検索や類似ワード検索、単語の加減算、可視化、Fine-tunedモデルの役割、拡散モデルと検索の統合、CLIP Skipの理解と活用方法などについて解説します。2章で紹介したCLIPを活用し、マルチモーダル基盤モデルと画像生成を本格的に紐づけます。 - Stable Diffusion応用:
Stable Diffusionを応用した画像生成技術について、複数モデルのマージや階層マージ、モデル変換、ネガティブプロンプト、トークン数制限の突破、空間制御手法などの応用方法を紹介します。これは通常、WebUIで行われている手法をDiffusersで再現し、研究的な背景も踏まえつつ、その特性について見ていくものです。ControlNetやLoRA、GPTとの連携のような話もここで登場します。 - 潜在表現と画像生成の深い関係:
本章では、一般的な画像生成と潜在表現の関係、DDPMと拡散モデルの基本、生成画像にプロンプトの意味が伝わる仕組み、Guidance Scaleの影響検証、Noise Scaleと生成画像のコンテクスト、ノイズマスクのカスタマイズ、Progressive Growing、Latent Upscaler、Visual Promptの概要と活用法、Latent Coupleなどについて解説します。ただのノイズである潜在表現ですが、その意味は画像生成の結果に大きな影響を与えます。その深い意味や応用手法について見ていきます。 - Attentionハッキングと応用:
本章では、Attention CoupleやスタイルLoRA、ControlNet Reference Only、Attention Mapの可視化と解釈、xformersによる高速化、動画生成とText2Video Zero、ControlVideo、360度パノラマ画像生成などの応用方法を紹介します。画像生成の最先端の手法は、Attentionをハッキングすることで実現されるものが非常に多くなっております。Attentionをジャックすることで、追加訓練なしで非常に面白い結果がおこるので、その世界について体験してみてください。
4.deeplearing aiの教材
現在2023.9.10で11のshort courseとawsを使った専門コースがある。
https://ml-study.com/wp-admin/post.php?post=566&action=edit
5.洋書
オライリーの『生成Deep Learning』の第2版が面白い。現在は英語版のみ。

生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする

Generative Deep Learning: Teaching Machines to Paint, Write, Compose, and Play
オライリーの公式サイト
書籍の説明 ジェネレーティブ AI はテクノロジー界で最もホットなトピックです。
・この実用的な本は、機械学習エンジニアとデータ サイエンティストに、TensorFlow と Keras を使用して、変分オートエンコーダー (VAE)、敵対的生成ネットワーク (GAN)、トランスフォーマー、正規化フロー、エネルギーベースのモデル、 およびノイズ除去拡散モデル。
・ この本はディープラーニングの基礎から始まり、最先端のアーキテクチャに進みます。 ヒントとコツを通じて、モデルをより効率的に学習させ、より創造的にする方法を理解できます。
・VAE が写真の表情をどのように変更できるかを確認する。
・ 独自のデータセットに基づいて画像を生成するように GAN をトレーニングする 。
・新しい種類の花を生成するための拡散モデルを構築する。
・ テキスト生成用に独自の GPT をトレーニングする。
・ ChatGPT のような大規模な言語モデルがどのようにトレーニングされるかを学ぶ 。
・最先端の情報を探索する -StyleGAN2 や ViT-VQGAN などのアート アーキテクチャ Transformers や MuseGAN を使用してポリフォニック音楽を作曲する。
・ 生成ワールド モデルが強化学習タスクをどのように解決できるかを理解する。
・ DALL.E 2、Imagen、安定拡散などのマルチモーダル モデルについて詳しく説明する 。
・この本では、 生成 AI と、個人や企業がこの注目に値する新しいテクノロジーを積極的に活用して競争上の優位性を生み出す方法について説明します。
6.個人サイト npakaさん https://note.com/npaka/
布留川先生のnote
直近のnoteでは「最近のLLMの学習法のまとめ – SFT・RLHF・RAG」https://note.com/npaka/n/n862786604dc3
7.個人サイト ML_Bearさん
blog:https://ml-bear.notion.site/ml-bear/ML_Bear-Naotaka-Uchida-86f555c34afc470cafea6f588c726ef8
8.バーチャルデータサイエンティスト アイシア=ソリッド
x:https://twitter.com/AIcia_Solid
Youtube:https://m.youtube.com/channel/UC2lJYodMaAfFeFQrGUwhlaQ
9.論文まとめサイト
