Survey'09_active learning

阅读时间:2023.7.6

作者:Burr Settles,University of Wisconsin–Madison

来源:

日期:2009

有无代码:无

0.摘要:

  • 定义:主动学习的关键是使用,我们能够挑选信息度较高的训练数据,使得训练出来的算法能比在所有数据上标注训练达到更高的性能。
  • 论文内容包括
    1. 介绍
    2. 方案
    3. 查询策略框架
    4. 关于主动学习的实证分析和理论分析
    5. 问题设置变体
    6. 实际问题考虑
    7. 相关研究领域

      1.引言

      1.1主动学习是什么

  • 首先算法允许选择特定的有标签的训练数据
  • 关键假设:标注是有成本的。
    • 语音识别
    • 信息提取
    • 分类和过滤
  • 目标:使用尽可能少的标记数据来训练解决问题的模型,提高精度。

    1.2 例子

image.png 图1 基于池的主动学习循环

从标记样本集L中的少量样本出发,生成对未标记样本池中的特定样本请求(人类注释者)标签,并从标记结果进行学习。

image.png 图2 阐释性例子

(a)是由两个高斯函数生成的数据集,不同的颜色代表不同的类 (b)随机采样三十个点,标注后训练逻辑回归模型,分类精确度达到70%。分类边界是倾斜的,远离最佳决策边界x=0的位置。 (c)使用不确定性采样来关注最接近决策边界的实例,使得模型空间充分解释其他部分的实例,避免为冗余或者不相关的实例请求标签,在30个实例被标记的情况下达到90%的准确率。

image.png|500 图3 在图分类任务上(主动学习的)模型准确度在大部分点上都由于随机采样训练的模型

2. 查询生成方案

假设:查询的形式是某些未标记的实例,经过查询后,他们会被oracle预言机标记。

2.1 Membership Query Synthesis(成员查询综合)

  • learner可以请求任何未标记实例的标签,一般择最有信息量的样本进行标注。图像从头开始生成新的查询。
  • 缺点:在训练神经网络对手写字符进行分类时,发现学习器生成的许多查询图像不包含任何人类可识别的符号。同样可以想象到在自然语言处理任务上同样会出现无语义的查询。后续两节中基于流和基于池的方案可以解决这种限制。

2.2 Stream-Based Selective Sampling(基于流的选择性采样)

假设:获取未标记样本除标签之外的信息是免费的、或者远远小于请求标注的成本,因此可以首先在建模未标记样本的空间,在未标记样本集U中采样,让学习器来决定是否请求它的标签。

这里有多种方式来决定是否查询该未标记样本。

  • 一种常用的方法是使用不确定性度量,例如熵(entropy)或置信度(confidence),来衡量模型对于该采样样本的不确定性,使得信息量越大的实例越有可能被查询。
  • 另一种方法是计算实例空间中对学习者仍然不明确的部分,只查询落在其中的未标记样本。或者设定一个信息量的最小阈值,只查询高于此阈值的实例。
  • 另一种更有原则的方法是定义整个模型类仍然未知的区域,即与当前标记训练集一致的假设集,称为版本空间。如果同一模型类(但参数设置不同)的任何两个模型在所有标记数据上都一致,但在某些未标记实例上不一致,则该实例位于不确定性区域内。

2.3 Pool-Based Sampling(基于池的采样)

假设:有一小部分标记数据L和大量可用的未标记数据 U。有选择地从池中选择查询,通常,根据用于评估池中所有实例的信息性度量,以贪婪(最优)的方式查询实例。

  • stream-based 和pool-based的区别在于前者是按顺序扫描样本,由learner做出是否查询的决策,就这在选择查询之前对整个集合进行评估和排名。
  • 虽然基于池的策略在论文发表中更常见,但是基于流的策略在内存或计算能力有限时,适应地更好。

QAL很有可能采用这种方案,通过量子计算的数学框架对样本空间进行建模,定义合适的不确定性度量。

3. 查询策略框架

假设:查询选择算法A和信息量最丰富的实例(最佳查询)xA

3.1 Uncertainty Sampling

这里给出三种不确定性度量算法,用于选择查询样本。

第一种是查询最不可信的实例样本,选择被预测的最有可能类的概率的最小值的样本进行查询,或者最大化不是最有可能类的概率的样本进行查询。公式如下:

xLC=argmaxx 1Pθ(y^|x)

其中 y^=argmaxyPθ(yx)

然而上述方法只考虑了最有可能的标签,丢弃了有关剩余标签的信息。为了纠正这种问题,出现了多类不确定性采样的变体,叫margin sampling(边际采样)。

xM=argminx Pθ(y1^|x)Pθ(y2^|x)

其中y^1y^2分别是模型下最有可能和第二有可能的标签。因为分类器毫无疑问区分两个最可能的类标签。边缘较小的实例更加模糊,因此了解真实标签将有助于模型更有效地区分它们。但是对于标签类别较多,该方法仍然忽略了剩余类的大部分分布。

于是出现了更加通用与流行的策略:用熵进行度量。

xH=argmaxxiPθ(yi|x)logPθ(yi|x)

yi涵盖所有可能的标签类别。熵是一种信息论度量,表示“编码”分布所需的信息量。

image.png 图5 在三分类任务中的热力图。单纯形角表示一个标签具有非常高概率的位置。每个信息最丰富的查询区域以深红色显示,从中心向外辐射。

直观上来说,如果目标函数是最小化对数损失,那么熵似乎是合适的,而如果我们的目标是减少分类误差,那么其他两个(特别是边际)更合适。

在高斯假设下,随机变量的熵是其方差的单调函数,因此这种方法与用于分类的基于熵的不确定性采样的精神非常相似。可以针对各种模型计算输出方差的闭合形式近似值,包括高斯随机场(Cressie,1991)和神经网络(MacKay,1992)。回归问题的主动学习在统计文献中有着悠久的历史,通常被称为最优实验设计(Federov,1972)。这些方法避免了不确定性采样,而是采用更复杂的策略。

3.5 Variance Reduction

4. 关于主动学习的实证分析和理论分析

5. 问题设置变体

6. 实际问题考虑

7. 相关研究领域

This line appears after every note.

Notes mentioning this note


Here are all the notes in this garden, along with their links, visualized as a graph.

Conda导出python环境加快访问github新闻稿实验1:ros入门实验3:自动驾驶实战实验4:ros2智能移动机器人实验5:ros1移动机器人动态避障(基于强化学习)实验6:轨迹跟踪仿真1最终实验自动驾驶辅助python函数Obsidian发布的免费替代方案Obsidian库解析TestYour first seedClip 串讲Nips'17 attention is all you needSigir'22 cret cross Modal retrieval transformer...Arxiv 2306’unifying large language models and...Arxiv'21 how much can clip benefit vision And...⭐ ⭐ ⭐ ⭐ ⭐ arxiv 2311' llmsurveychinese⭐⭐⭐⭐eccv'22 slip:self Supervision meets language...⭐⭐⭐⭐⭐clip:learning transferable visual models from...⭐⭐⭐⭐⭐icml'22 blip bootstrapping language Image pre...Arxiv'23 challenges and applications of large...Prl'20 retrieving quantum information with active...SIGIR'06 Laplacian Optimal Design for Image...Survey'09active learningTKDE'16Relevance Feedback Algorithms Inspired By...Improving interpretable embeddings for ad Hoc...Access'17...Artif. intell. rev.‘23 a survey on ensemble...Fcs'20 a survey on ensemble learningTpmai'04 asymmetric bagging and random subspace...⭐⭐⭐⭐access'22 a survey of ensemble learning进化集成学习算法综述《黑客与画家》 为什么书呆子不受欢迎《黑客与画家》《黑客与画家》——黑客与画家黑客伦理Avs检索流程Avs项目管理Avs speaker proposalAvs paper思路整理Presentation 思路整理Stable Diffusion检索流程2023avs交互使用flask快速构建浏览器实现图片交互Trecvid avs 个人感受2022交互情况统计2024avs交互情况统计Llm api测试Agi 比赛Lean(vs code)Agic TrickLlm相关论文Rtx 4090 部署大模型 20240306构建样题数据集调查开源大模型的数学能力想法计划231128调研Github下载Python调用javaVbs2024比赛复盘复现系统talkseeDiffusion扩散模型调研2023 mindspore量子计算黑客马拉松全国大赛热身题2023 mindspore量子计算黑客马拉松初赛——量子组合优化赛道代码集成进化算法Python使用Vscode使用Github问题Linux华为手机安装google框架工具推荐科研问题笔记本电脑视频生成调研20241002更换内存条(16g换到32g)24考研总结Reflection 大学四年的回顾及年终总结《周处除三害》观后感《奥本海默》观后感李沐讲座考研计划牛奶2023 mindspore量子计算黑客马拉松初赛——量子组合优化赛道排序融合动手学习深度学习算法笔记论文阅读模板2023 07 062023 08 30算法知识生活Paper ReadingProjects