Image-to-Text 関連 - 論文

GIT

Abstract

1つのimage encoderと2つのtext decoderだけでImage to textを行う. 0.8b data. 人間を超えるOCR精度.

単純なarchitectureによりタスクが違っても同じlossを使える. videoの場合はimageをconcatするだけ.

imageをtextと結合するにはcross-attentionか, concatしてself-attentionに渡せば良い.

Notes

Florence - 入力が自由で汎用性が高い. VQAなど様々なtaskに使用可能
SimVLM - pre-trainingのdataset要件を緩和する. 一般化, transferに強い. text mask.
Image Text Matching(ITM)
ALIGN - CLIP似需要が高まっている表現ベクトル関連 scaleによりpre-trainingのdataset要件を緩和. 単純architecture.
Swin Transformer - 計算範囲を限定し高速化.
RCNN