⭐⭐⭐⭐eccv'22 slip:self Supervision meets language Image pre Training

阅读时间: 24.1.17 作者: Norman MuAlexander KirillovDavid Wagner & Saining Xie

1.引言

三个测试任务:零样本迁移,线性分类,端到端微调。

2.方法

CLIP + SimCLR:在训练时同时计算CLIP的损失和SSL(Self-Supervised Learning)的损失,进行标量相加,作为训练损失。

  • CLIP目标:在CLIP(Contrastive Language-Image Pre-training)目标中,模型将图像嵌入和字幕嵌入投影到一个512维空间中。这是通过分别学习的线性投影来实现的。CLIP目标的核心是通过这些投影将图像和相关文字描述对齐,即使图像嵌入和文字嵌入在一个共同的空间内尽可能相近。
  • 自监督学习分支:在自监督学习分支中,模型使用一个3层的多层感知器(MLP)投影头,它有4096维的隐藏层,将图像嵌入转换到一个256维的输出空间。这个自监督任务通常涉及到图像的一些变换或扰动,模型需要预测这些变换,从而学习到图像的内在特征。
  • 组合两个目标:将CLIP目标和自监督学习目标结合在一起,通常是通过将两者的损失函数加权和作为整体的损失函数。这意味着模型在训练过程中会同时尝试优化两个目标:一方面,它会尝试更好地对齐图像和文字嵌入(CLIP目标),另一方面,它还会努力学习从图像嵌入预测图像变换的能力(SSL目标),增强对图像特征的理解。

3.实验

  • 用两个不同的自监督框架在不同数据集上训练ViT-B/16,在ImageNet这种没有被筛选过的数据集上训练,更有可能包含不平衡的类别分布、更多的噪声和不相关的信息,模型的效果更好。 image.png
  • 在ImageNet上的测试 image.png
  • 在不同的ViT模型上进行测试,在更大的模型和更长的训练时间上都能得到很好的扩展 image.png
  • 在zero shot transfer上测试了许多数据集,显示在大多数数据集桑德表现都比CLIP好,最后取了所有分数的平均。 image.png
  • 不同的自监督框架的表现,SimCLR最好。 image.png

4.进一步的讨论

  • SLIP不是简单的数据增强+CLIP image.png
  • 在训练过程中,从这两个数据集(用于语言-图像监督和用于自监督的数据集)中独立采样图像。这种做法有效地将语言-图像监督信号和自监督信号分开。结果发现,两个模型性能相同。说明在自监督学习和语言监督完全不同的情况下不影响模型表现。 image.png

收获

  • 平均嵌入:提示模版+文字输入的每个类的平均作为最终的text feature。
  • 缺点:SSL用来抓取图片特征,但是在zero-shot的情况下怀疑他在新数据集并没有好的泛化能力。

This line appears after every note.

Notes mentioning this note


Here are all the notes in this garden, along with their links, visualized as a graph.

Conda导出python环境加快访问github新闻稿实验1:ros入门实验3:自动驾驶实战实验4:ros2智能移动机器人实验5:ros1移动机器人动态避障(基于强化学习)实验6:轨迹跟踪仿真1最终实验自动驾驶辅助python函数Obsidian发布的免费替代方案Obsidian库解析TestYour first seedClip 串讲Nips'17 attention is all you needSigir'22 cret cross Modal retrieval transformer...Arxiv 2306’unifying large language models and...Arxiv'21 how much can clip benefit vision And...⭐ ⭐ ⭐ ⭐ ⭐ arxiv 2311' llmsurveychinese⭐⭐⭐⭐eccv'22 slip:self Supervision meets language...⭐⭐⭐⭐⭐clip:learning transferable visual models from...⭐⭐⭐⭐⭐icml'22 blip bootstrapping language Image pre...Arxiv'23 challenges and applications of large...Prl'20 retrieving quantum information with active...SIGIR'06 Laplacian Optimal Design for Image...Survey'09active learningTKDE'16Relevance Feedback Algorithms Inspired By...Improving interpretable embeddings for ad Hoc...Access'17...Artif. intell. rev.‘23 a survey on ensemble...Fcs'20 a survey on ensemble learningTpmai'04 asymmetric bagging and random subspace...⭐⭐⭐⭐access'22 a survey of ensemble learning进化集成学习算法综述《黑客与画家》 为什么书呆子不受欢迎《黑客与画家》《黑客与画家》——黑客与画家黑客伦理Avs检索流程Avs项目管理Avs speaker proposalAvs paper思路整理Presentation 思路整理Stable Diffusion检索流程2023avs交互使用flask快速构建浏览器实现图片交互Trecvid avs 个人感受2022交互情况统计2024avs交互情况统计Llm api测试Agi 比赛Lean(vs code)Agic TrickLlm相关论文Rtx 4090 部署大模型 20240306构建样题数据集调查开源大模型的数学能力想法计划231128调研Github下载Python调用javaVbs2024比赛复盘复现系统talkseeDiffusion扩散模型调研2023 mindspore量子计算黑客马拉松全国大赛热身题2023 mindspore量子计算黑客马拉松初赛——量子组合优化赛道代码集成进化算法Python使用Vscode使用Github问题Linux华为手机安装google框架工具推荐科研问题笔记本电脑视频生成调研20241002更换内存条(16g换到32g)24考研总结Reflection 大学四年的回顾及年终总结《周处除三害》观后感《奥本海默》观后感李沐讲座考研计划牛奶2023 mindspore量子计算黑客马拉松初赛——量子组合优化赛道排序融合动手学习深度学习算法笔记论文阅读模板2023 07 062023 08 30算法知识生活Paper ReadingProjects