Page4から再開
高解像度の画像を生成することができる SAGANを内部で使う 名前の通り大きなネットワーク <img src="/attachment/65afac6c4817030b36f971d0" width=500> バッチサイズを大きくすることでISを改善。
Inception Score - 画像のQuality 大きいほどいい Inception Distance - 小さいほどいい Lipschitz continuity - この辺り不明点が多い
小さい画像からスタートし、徐々にレイヤーを足しながら解像度を上げていく。 画像のQualityとVariationを同時に向上させる。
<img src="/attachment/65af8dc54817030b36f8d294" width=500> バッチにまたがる統計値をDiscriminatorの最後のLayerで利用することで、variationを改善する。 <img src="/attachment/65afa16f4817030b36f93ea4" width=500> (a)から(c)に(b)の状態を経由しながら徐々に推移する。 パラメーターの大きさは動的にスケーリングされ、学習率が最適化される。Generatorも正規化。
3 | Spacial location - 何のLocation?index?
Wasserstein distance - これが近いとtraining, dataの見た目,variationが近い
Unsupervisedでありながら、強力なEncodeを可能にする。Decode時にLatentが無視されるposterior collapseを解決する。Latentは従来と異なる離散的な値(言語と同様)で表現される。 表記の幅を制限することで、ノイズや認識不可能な細部を省く。 Eocoder出力と最も近いEmbeddingをK個の中から一つ選択
<img src="/attachment/65c0745d06150a3d7337f10a" width=400>
logKでKL Divergenceが求められる <img src="/attachment/65c0750806150a3d7337f94d" width=500>
graidentはDecoderの入力がEncoderの出力にコピーされる。そのままではEmbeddingを学習できないので辞書方式のシンプルな学習方法であるVQを使う。l2 errorを使って、embeddingをencoderの出力に近づける。Embeddingの数は学習中に自在に増やすことができる。
<img src="/attachment/65c076b306150a3d73380af8" width=400>