优势
通用的
计算高效:更少的可训练参数,因为直接使用预训练好的视觉模型、大语言模型(冻结了参数)
框架
训练分为两个学习阶段:
视觉和语言的表示学习阶段
视觉到语言的生成式学习阶段
预训练好的视觉模型提供高质量的视觉表示,预训练好的
2024-11-08