https://cdn-ak.f.st-hatena.com/images/fotolife/R/Ryobot/20210103/20210103024818.png
これ見ればわかるけどKL情報量から導かれるロスを半減させるために画像なら32倍動画なら128倍計算させないといけないけど、言語モデルでロス半減のためには2の20乗くらい計算増やさないといけない
文字通り百万倍計算増やしてKL情報量から導かれる削減可能ロスを半減させうるっていう
transformerで自動運転はできるようになっても言語で人間越えるのは量子コンピュータないと無理だろ