Backlog
Abstract
画像にノイズを加えて、ガウシアンノイズに変換する。そしてその逆を実行し、元の画像を生成する。
score-based generative modelsと呼ばれる場合もある。マルコフチェーンベースの方法で、ステップ数を多くすると、学習が効率良くなり精度も上がる。
<img src="/attachment/65bf241b06150a3d7333f2e9" width=400>
p(xt,xt-1)はノイズを足していくプロセスで計算で求められる。その逆のpθ(xt-1,xt)の計算にNNを用いる。(paremeterθをもつ).
ノイズが付加された画像から、ノイズの予測精度が最大化するように学習を進める(特別なLoss function)。ここではU-Netが用いられる。
PositionEmbed, ResNet, Attention, Weight standardlization, の技術をU-Net内で用いる。
Note
- Classifier freeはcGANのようなもの。
- GUIDE - Text guided diffusion model
- Latent diffusion - Text to image pix2pix inpaintingなど複数の応用が可能
- Egergy-based modeling - サンプルからエネルギーマップを作成して、エネルギーの高いところから生成を行う(論文を読んだ方が良さそう)
- annealed langevin dynamics - Gradient decentのような最適化,エネルギーベース?より良いサンプルを抽出(曖昧)
- Isotropic - 方向によらず大きさが同じ
- N(x;p1,p2) - セミコロンの左が変数、右がパラメタ。ただ、数がマッチしていない理由は謎。p1+p2 * N(0,I)の書き換えの方がわかりやすい.
- KL Divergence - 二つの分布の相違を示す
- Sinusoidal position - 相対的な座標を埋め込む役割がある
- Group Normalization - Layerの一部をNormalize