Transformerに適応可能なfine-tuningの手法で、1/10,000のparameter, 1/3のメモリ消費に抑える. 一部のlayerに値を足し合わせるだけでかなりの効果がある. 推論時の遅延がない.

小さなモデルを一部のlayerに挿入する. 学習済みモデルは、実際にはずっと少ないdimensionで情報を表せる. W0+deltaW deltaW=BAでW0をfreezeさせると、B,Aが学習される. ベースモデルには変更がないので1回ロードしておけばいい.

ProtoNet

Pepresentation spaceでの距離を計算する. 見たことのないデータを一般化できる. 再学習で起きがちなoverfitを避けられる.

Few-Shotではデータのk-meanを代表点としてとる.

Cos SimよりEuclidian distの方が性能が良い.

Softmaxを最小化するように学習.

episode用のclass選択 -> SampleとQuery選択. Sampleに対してk-mean.

k-meanとQueryの点の距離からloss計算.

Mixture Density EstimationともLinear Modelとも捉えることができる.

P > M > F