Backlog

DDPM

Abstract

画像にノイズを加えて、ガウシアンノイズに変換する。そしてその逆を実行し、元の画像を生成する。

score-based generative modelsと呼ばれる場合もある。マルコフチェーンベースの方法で、ステップ数を多くすると、学習が効率良くなり精度も上がる。

<img src="/attachment/65bf241b06150a3d7333f2e9" width=400>

p(xt,xt-1)はノイズを足していくプロセスで計算で求められる。その逆のpθ(xt-1,xt)の計算にNNを用いる。(paremeterθをもつ). ノイズが付加された画像から、ノイズの予測精度が最大化するように学習を進める(特別なLoss function)。ここではU-Netが用いられる。

PositionEmbed, ResNet, Attention, Weight standardlization, の技術をU-Net内で用いる。

Note