ランダムなノイズから少しずつ除去する「逆拡散」プロセスで画像や動画を生成します。テキスト条件付けを組み合わせると指示文から絵を描く AI の核になります。
ランダムなノイズから少しずつ除去する「逆拡散」プロセスで画像や動画を生成します。テキスト条件付けを組み合わせると指示文から絵を描く AI の核になります。
Stable Diffusion・DALL-E・Sora など画像・動画生成の解説記事で目にします。LLM と並ぶ「現代生成 AI の二大アーキテクチャ」として紹介されます。
ノイズを段階的に除去して画像・動画・音声を生成するアーキテクチャです。
高品質な画像を多様に生成でき、テキスト指示にも対応できます。
複数ステップかかるため単純な推論より処理が重くなります。
画像・動画生成ツールの仕組みを概念として理解したい場面で役立ちます。
「ノイズから絵を取り出す逆向きの処理」という大枠で十分です。
Stable Diffusion(D-54)、DDPM 論文、U-Net