画像認識と文章は強くなってるけど音声認識はずっとショボいよな
ネイティブ英語でもガバガバやし