GPTが文章の表現方法を学ぶように、画像の表現方法を学ぶ. Maskで隠された部分をtransformerを使って予測するモデル. 再帰的に次のpixelを予測するタスクもある. CIFAR-10, linear-probingで96.3%. fine-tuningで99%. 表現方法のqualityを評価するために使える. 良い表現vectorはclass毎に線形分離されているという前提のもと. またtask毎の特異不得意による差も減る.
unsupervised pre-trainingは精度を下げることがあるがそれでも一般的に使われている. language tokenを予測するように次のpixelを予測する. BERT適応可能.
表現vectorはaverage poolしたものを用いる. ただし、linear-probingでは最後のlayerのみ. pre-trainngはlabelなしでfine-tuningはあり.