>>124
定義は複数あるけど、何であれtransformerならの1/nにKL divergenceから導かれる削減可能ロスを減らすためにはn^20以上の計算が必要なんだよ
ようするにほぼほぼあるとこで性能が頭打ちってこと