Image-to-Text 関連 - 論文
Abstract
1つのimage encoderと2つのtext decoderだけでImage to textを行う. 0.8b data. 人間を超えるOCR精度.
単純なarchitectureによりタスクが違っても同じlossを使える. videoの場合はimageをconcatするだけ.
imageをtextと結合するにはcross-attentionか, concatしてself-attentionに渡せば良い.
Notes
- Florence - 入力が自由で汎用性が高い. VQAなど様々なtaskに使用可能
- SimVLM - pre-trainingのdataset要件を緩和する. 一般化, transferに強い. text mask.
- Image Text Matching(ITM)
- ALIGN - CLIP似 需要が高まっている表現ベクトル関連 scaleによりpre-trainingのdataset要件を緩和. 単純architecture.
- Swin Transformer - 計算範囲を限定し高速化.
- RCNN