Distilation with No label
同じ略称のDETR with Improved deNoising anchOr boxes.と混同しないように.
attentionを使い、superviseなしで、class活性化マップのようなものを学ぶ. Objectの境界を捉えている. 精度はsupervisedに劣るが、k-NN classifierとして78.3%の精度を実現できる. 2x8x3 day. 小さなpatchを使うと性能向上. 教師DNN(Momentum Encoder)の出力を予測する. <img src="/attachment/65f012f8055be457ce046f4d" width=300>
self-supervised : datasetの画像を全識別していた. noiseを使った手法も. ただし遅い.
whiteningを使ってuniform distributionにする手法もある. 今回の手法はBYOLベースで異なるloss関数.
ごく一部のannotationをunlabel dataset全体に伝播させていく(distilation)? 初期のlabelは適当でも良い? temperatureによって予測のランダムさ?も変えられる.
<img src="/attachment/65f0185c055be457ce04ace6" width=400>
teacherはaveragingの影響でstudentより高い性能になるため、studentはそれに近づけていけば良い.
ViTはBNを必要としない. Colapseを避けるため, contrastive loss, clustering constraints, preditorが使える. centeringは1次元への表記の集中を防ぐが、uniform distributionを乱す. sharpeningはその逆の作用を持ちバランスを保つ.