GAN関連 - 論文

BigGAN

Page4から再開

Abstract

高解像度の画像を生成することができる SAGANを内部で使う名前の通り大きなネットワーク <img src="/attachment/65afac6c4817030b36f971d0" width=500> バッチサイズを大きくすることでISを改善。

疑問点

Inception Score - 画像のQuality　大きいほどいい Inception Distance - 小さいほどいい Lipschitz continuity - この辺り不明点が多い

ProgressiveGAN

Abstract

小さい画像からスタートし、徐々にレイヤーを足しながら解像度を上げていく。画像のQualityとVariationを同時に向上させる。

<img src="/attachment/65af8dc54817030b36f8d294" width=500> バッチにまたがる統計値をDiscriminatorの最後のLayerで利用することで、variationを改善する。 <img src="/attachment/65afa16f4817030b36f93ea4" width=500> (a)から(c)に(b)の状態を経由しながら徐々に推移する。パラメーターの大きさは動的にスケーリングされ、学習率が最適化される。Generatorも正規化。

疑問点

3 | Spacial location - 何のLocation?index?

Wasserstein distance - これが近いとtraining, dataの見た目,variationが近い

VQVAE

Abstract

Unsupervisedでありながら、強力なEncodeを可能にする。Decode時にLatentが無視されるposterior collapseを解決する。Latentは従来と異なる離散的な値(言語と同様)で表現される。表記の幅を制限することで、ノイズや認識不可能な細部を省く。 Eocoder出力と最も近いEmbeddingをK個の中から一つ選択

logKでKL Divergenceが求められる <img src="/attachment/65c0750806150a3d7337f94d" width=500>

graidentはDecoderの入力がEncoderの出力にコピーされる。そのままではEmbeddingを学習できないので辞書方式のシンプルな学習方法であるVQを使う。l2 errorを使って、embeddingをencoderの出力に近づける。Embeddingの数は学習中に自在に増やすことができる。