CLIP是一种多模态模型,它结合了哪两种类型的信息? 选项: A: 文本和图像 B: 音频和文本 C: 图像和音频 D: 文本和音频 音频 模态 结合了 发布时间:2024-06-05 20:02:32