Just write something here.
Visual Prompting for GFSS A Multi-scale Approach论文笔记 Visual Prompting for GFSS A Multi-scale Approach论文笔记
Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach 广义少样本学习,少样本学习的一种更现实的变体引入,允许从基类或新类中查询图像。 广
2025-02-17
Zero-shot REC论文笔记 Zero-shot REC论文笔记
Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions概要通过图像和标题之间的结构相似性进行零样本
2025-02-11
FM-FSOD论文笔记 FM-FSOD论文笔记
Few-Shot Object Detection with Foundation Models 小样本目标检测(FSOD)的目的是通过一些训练样本(也叫做support image)来检测没见过的新目标。 视觉特征提取和支持查询的相似度
2025-02-01
ID-like Prompt Learning for Few-Shot Out-of-Distribution Detection论文笔记 ID-like Prompt Learning for Few-Shot Out-of-Distribution Detection论文笔记
ID-like Prompt Learning for Few-Shot Out-of-Distribution Detection介绍分布外(Out-of-Distribution, OOD)检测方法通常利用辅助离群值来训练识别分布外样本
2025-01-25
MESED论文笔记 MESED论文笔记
MESEDA Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negative Entities 具有细粒度语义类和硬
2025-01-19
Efficient Teacher Efficient Teacher
基于单阶段锚框的检测器缺乏生成高质量或灵活伪标签的结构,导致半监督目标检测(SSOD)出现严重的不一致性问题。 在本文中,我们提出了 Efficient Teacher(高效教师)框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练。由
2025-01-01
InstructBLIP论文笔记 InstructBLIP论文笔记
背景大规模的预训练和指令调整已经成功地创建了具有广泛能力的通用语言模型。然而 ,由于额外的视觉输入带来了丰富的输入分布和任务多样性,建立通用视觉语言模型具有挑战性。尽管视觉语言预训练已被广泛研究,但视觉语言指令调整仍未得到充分探索。 为了应
2024-12-13
CoCa论文笔记 CoCa论文笔记
CoCa:Contrastive Captioner探索大规模的预训练base模型在计算机视觉领域有重要意义,因为这些模型可以快速转移到许多下游任务中。 现有的三种基础模型训练方法1. 单编码模型single-encoder models只
2024-12-06
BLIP论文笔记 BLIP论文笔记
预训练 图像编码器:ViT的架构。将输入图像分割成一个个的 Patch 并将它们编码为一系列 Image Embedding,并使用额外的 [CLS] token 来表示全局的图像特征。 文本编码器:BERT 的架构。[CLS] toke
2024-12-03
ALBEF论文笔记 ALBEF论文笔记
ALBEF论文笔记简介现有方法的缺陷 图像特征和单词标记嵌入位于它们自己的空间中,这使得多模态编码器学习建模其交互具有挑战性; 目标检测器既注释昂贵又计算昂贵,因为它在训练前需要边界框注释,以及高分辨率(例如。600×1000)图像; 广泛
2024-12-03
1 / 2