SD1.5以降については(SDXL)
オープンソースなのにデータセットを非公開、っていう状況になってて
マジで学習データに何が使われてるかは誰も分からん状態や

というか誰もデータセットの詳細について触れなくなったっていうな