⭐⭐⭐⭐⭐clip:learning transferable visual models from natural language supervision

阅读时间:24.1.12

思想

训练一个系统来预测哪个文本作为整体与哪个图像配对,而不需要精确预测对应图片的文本单词。给定N个图像文本匹配对,CLIP学习一个联合多模态嵌入空间,最大化N个真实匹配对的余弦相似度,最小化N2N个错误的匹配对的余弦相似度、对称交叉损失熵(Symmetric Cross Entropy Loss),以下是伪代码: image.png

可以看到,需要学习的有图片到嵌入的投影权重Wi,文字到嵌入的投影权重Wt,以及温度变量。特征表示到投影空间是一个线性投影(只用了点乘)

选择模型

  • image encoder
    • ResNet50作为图片编码器的基本结构,注意力池化代替全局平局池化
    • Vision Transformer (ViT)
  • text encoder
    • Transformer (a 12-layer 512-wide model with 8 attention heads. )

在调整深度,宽度和分辨率的实验中,保持两类编码器的宽度增加比例相同。结果发现CLIP对文本编码器的改变不敏感,说明图像编码器包含信息更多,更为重要。

实验结果

  • 在零样本学习场景中,CLIP模型达到了与四样本(4-shot)线性分类器平均性能相当的水平。
  • Vision Transformer 比Resnet的计算效率更高
  • CLIP在零样本任务上相比其他模型更具鲁棒性。对于数据集图片风格的变换也能保持基本性能。

局限性

  • 如何提高CLIP的计算和数据使用效率

收获

zero-shot:零样本任务。指在未学习过测试集的形式的模型直接使用。

This line appears after every note.

Notes mentioning this note


Here are all the notes in this garden, along with their links, visualized as a graph.

Conda导出python环境加快访问github新闻稿实验1:ros入门实验3:自动驾驶实战实验4:ros2智能移动机器人实验5:ros1移动机器人动态避障(基于强化学习)实验6:轨迹跟踪仿真1最终实验自动驾驶辅助python函数Obsidian发布的免费替代方案Obsidian库解析TestYour first seedClip 串讲Icml'23 blip 2 bootstrapping language Image pre...Nips'17 attention is all you needSigir'22 cret cross Modal retrieval transformer...Arxiv 2306’unifying large language models and...Arxiv'21 how much can clip benefit vision And...⭐ ⭐ ⭐ ⭐ ⭐ arxiv 2311' llmsurveychinese⭐⭐⭐⭐eccv'22 slip:self Supervision meets language...⭐⭐⭐⭐⭐clip:learning transferable visual models from...⭐⭐⭐⭐⭐icml'22 blip bootstrapping language Image pre...Acl'25 a survey of mathematical reasoning in the...Arxiv'23 challenges and applications of large...Prl'20 retrieving quantum information with active...SIGIR'06 Laplacian Optimal Design for Image...Survey'09active learningTKDE'16Relevance Feedback Algorithms Inspired By...Improving interpretable embeddings for ad Hoc...Access'17...Artif. intell. rev.‘23 a survey on ensemble...Fcs'20 a survey on ensemble learningTpmai'04 asymmetric bagging and random subspace...⭐⭐⭐⭐access'22 a survey of ensemble learning进化集成学习算法综述《黑客与画家》 为什么书呆子不受欢迎《黑客与画家》《黑客与画家》——黑客与画家黑客伦理250701 250708 阅读Avs检索流程Avs项目管理Avs speaker proposalAvs paper思路整理Presentation 思路整理Stable Diffusion检索流程2023avs交互使用flask快速构建浏览器实现图片交互Trecvid avs 个人感受2022交互情况统计2024avs交互情况统计Llm api测试Agi 比赛Lean(vs code)Agic TrickLlm相关论文Rtx 4090 部署大模型 20240306构建样题数据集调查开源大模型的数学能力想法计划231128调研Github下载Python调用javaVbs2024比赛复盘复现系统talkseeDiffusion扩散模型调研2023 mindspore量子计算黑客马拉松全国大赛热身题2023 mindspore量子计算黑客马拉松初赛——量子组合优化赛道代码集成进化算法Python使用Vscode使用Github问题HuggingfaceLinux华为手机安装google框架工具推荐科研问题笔记本电脑视频生成调研20241002更换内存条(16g换到32g)24考研总结Reflection 大学四年的回顾及年终总结《周处除三害》观后感《奥本海默》观后感《白金数据》书评李沐讲座考研计划牛奶2023 mindspore量子计算黑客马拉松初赛——量子组合优化赛道排序融合动手学习深度学习算法笔记论文阅读模板算法知识生活Paper ReadingProjectsWeekly Summary