Image-to-Text 関連 - 論文

GIT

Abstract

1つのimage encoderと2つのtext decoderだけでImage to textを行う. 0.8b data. 人間を超えるOCR精度.

単純なarchitectureによりタスクが違っても同じlossを使える. videoの場合はimageをconcatするだけ.

imageをtextと結合するにはcross-attentionか, concatしてself-attentionに渡せば良い.

Notes