Representation Learning 論文 - 関連
Abstract
画像でもGPTのように、taskに依存しないpre-trainingでさまざまなタスクをこなす.
patchのPCAは種類が違っても画像の特徴を捉える. 頭, 胴体など. 詳細度の異なる特徴を捉えているためtextとimageのpairが学習に使われていた. self-superviseが代替案として用いられるが、scaleとdatasetのqualityの両立に苦戦していた. 速度2x, メモリ/3. datasetのfilterと頻繁に現れる画像のrebalanceにより精度を上げる.
整理されたdataのembeddingを元に、整理されていないdataをretriveし、拡張する.
綺麗なLVD-142Mをretriveで拡張. Duplicationの排除. self-supervised ViT-H/16のembeddingでN=4,retrieve. 大きすぎると重複選択が起きる.
-
Image-level objective, patch-level objective...数多くのloss関数を併用する. 詳細は解説されていない.
-
FlashAttention, Model-distilattionなどで高速化
Resume from 3
Notes
- PCA(Principle Component Analytics) - 最も点群に合う線を求めその線にprojectionする
- t-SNE - 等間隔に 収束は遅い
- Perprxity - どれだけのNeighborをgroupするか 大きい - 混ざる 小さい - 細切れ
- UMAP - PCAとt-SNEのいいところどり ただし完全ではなく 複数手法の組み合わせがよく使われる.
- weakly-supervised learning - 精度の低い集めやすいlabelを利用する.
- intra-image self-supervised training - mask部分の予測やdenoiseを行う.
- discriminative self-supervised learning - 正しい画像を見分ける. ただしscaleに問題があった. pre-trainingの質の改善で解決
- iBOT - image BERT Pre-Training from with Online Tokenizer - Mask prediction. student, teacher法.