Representation Learning 論文 - 関連

DINO

DINOv2

Abstract

画像でもGPTのように、taskに依存しないpre-trainingでさまざまなタスクをこなす.

patchのPCAは種類が違っても画像の特徴を捉える. 頭, 胴体など. 詳細度の異なる特徴を捉えているためtextとimageのpairが学習に使われていた. self-superviseが代替案として用いられるが、scaleとdatasetのqualityの両立に苦戦していた. 速度2x, メモリ/3. datasetのfilterと頻繁に現れる画像のrebalanceにより精度を上げる.

整理されたdataのembeddingを元に、整理されていないdataをretriveし、拡張する.

綺麗なLVD-142Mをretriveで拡張. Duplicationの排除. self-supervised ViT-H/16のembeddingでN=4,retrieve. 大きすぎると重複選択が起きる.

  1. Image-level objective, patch-level objective...数多くのloss関数を併用する. 詳細は解説されていない.

  2. FlashAttention, Model-distilattionなどで高速化

Resume from 3

Notes