背景大规模的预训练和指令调整已经成功地创建了具有广泛能力的通用语言模型。然而 ,由于额外的视觉输入带来了丰富的输入分布和任务多样性,建立通用视觉语言模型具有挑战性。尽管视觉语言预训练已被广泛研究,但视觉语言指令调整仍未得到充分探索。
为了应
2024-12-13