Transformerに適応可能なfine-tuningの手法で、1/10,000のparameter, 1/3のメモリ消費に抑える. 一部のlayerに値を足し合わせるだけでかなりの効果がある. 推論時の遅延がない.
小さなモデルを一部のlayerに挿入する. 学習済みモデルは、実際にはずっと少ないdimensionで情報を表せる. W0+deltaW deltaW=BAでW0をfreezeさせると、B,Aが学習される. ベースモデルには変更がないので1回ロードしておけばいい.
Pepresentation spaceでの距離を計算する. 見たことのないデータを一般化できる. 再学習で起きがちなoverfitを避けられる.
Few-Shotではデータのk-meanを代表点としてとる.
<img src="/attachment/65e91d35055be457cee72384" width=400>
Cos SimよりEuclidian distの方が性能が良い.
Softmaxを最小化するように学習.
<img src="/attachment/65e91fbf055be457cee7384c" width=400>
episode用のclass選択 -> SampleとQuery選択. Sampleに対してk-mean.
k-meanとQueryの点の距離からloss計算.
Mixture Density EstimationともLinear Modelとも捉えることができる.