视觉开发认知和检测


概念

zero-shot learning(零样本学习):让机器具有推理能力,例如在目标检测中,希望模型可以对从未见过的类别进行分类

开放世界目标检测:在每一个场景中检测每一个类别,应该有能力利用具有异构标签空间的多个来源的图像用于训练和推广到开放世界进行推理

开放的含义:一般情况下,模型是根据预先打好的标签来检测目标,但是这样的模型能够检测的目标类型是有限的。“开放”就是希望模型不受预先定义好的标签类别限制。

多模态

概念:多种形态的信息(例如声音、文字、图像等)一起协作推理

结合计算机视觉和自然语言处理领域的多模态任务:让机器通过构建能够联合多种模态信息的模型来捕捉不同模态之间的对应关系和语义特征,从而能够同时处理多种形式的数据(图像、音频、文本等),加深机器对现实世界的感知。例如图像描述,我们不仅希望机器识别出实体对象及其标签,还希望它能够描述图像中实体之间的关系,以文本的形式描述出来。

yolo-world:轻量级的开放词汇检测器

参考

没有使用在线词汇,而是提出了一种“先提示后检测”的推理范式。具体如下:

  • 使用在线词汇进行训练。在训练过程中,为每个包含4张图像的mosaic样本构建一个在线词汇T。具体做法是,从mosaic图像中抽样所有涉及的正面名词,并从相应的数据集中随机抽样一些负面名词。

  • 随后使用离线词汇进行推理。在推理阶段,采用一种”先提示-再检测”的策略,使用离线词汇以提高效率。用户可以定义一系列自定义提示,然后利用文本编码器对这些提示进行编码,并获得离线词汇嵌入。

架构:

  1. 文本编码器对输入文本进行编码。
  2. 图像编码器将输入图像编码为多尺度图像特征
  3. 图像和文本特征利用RepVL-PAN实现多级跨模态融合。
  4. YOLO-World预测回归的边界框和对象嵌入,以匹配输入文本中出现的类别或名词。

Author: CuberSugar
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint polocy. If reproduced, please indicate source CuberSugar !
  TOC