PreTraining 関連 - 論文

ImageGPT

Abstract

GPTが文章の表現方法を学ぶように、画像の表現方法を学ぶ. Maskで隠された部分をtransformerを使って予測するモデル. 再帰的に次のpixelを予測するタスクもある. CIFAR-10, linear-probingで96.3%. fine-tuningで99%. 表現方法のqualityを評価するために使える. 良い表現vectorはclass毎に線形分離されているという前提のもと. またtask毎の特異不得意による差も減る.

unsupervised pre-trainingは精度を下げることがあるがそれでも一般的に使われている. language tokenを予測するように次のpixelを予測する. BERT適応可能.

表現vectorはaverage poolしたものを用いる. ただし、linear-probingでは最後のlayerのみ. pre-trainngはlabelなしでfine-tuningはあり.