中国人工智能学会通讯——弱监督机器学习的研究进展 1.1 监督学习、非监督学习和半监督学习概述

简介:

1.1 监督学习、非监督学习和半监督学习概述

回到我们所讨论的话题,首先还是要去关注一个最简单的问题,就是二元分类的问题。

我们会有一些训练数据(见下图),其中蓝色圈点代表正例,而红色叉点代表负例。这样的二分类问题,其实已经被研究很多年了,由于我们已经有了大量的标注数据,所以能够得到非常好的分类结果,我们都知道现在最优的分类结果是这样的。

image

然而,想要获取大量的标注数据是非常耗时耗力的,我们希望也能够对无标注数据进行分类,这就是无监督分类的由来。

其实无监督分类和聚类是一样的,比如下面这张图中的数据点聚成了两簇,每一个簇代表一个类别,这样才是非常好的分类结果。然而很遗憾现在我们这个假设(即聚类的结果表示一个类别)并未得到相应的验证,所以从这个层面上来看,还没有非常合理的办法来做无监督分类。

image

我非常喜欢2011年前提出另一种方法的论文:由于我们有大量的无标注数据和少量的标注数据,那么基于少量的标注数据就能在一定程度上找到边界,然后结合所找到的边界和大量无标注数据的聚类结果,从而找出更多的边界。这就是半监督分类。

image

然而,半监督分类和无监督分类面临同样的问题,也就是簇要能够跟类别对应起来。如果一个簇总能对应着一个类别,这样就完美了。但事实并非如此,这就是我们今天所要讨论的内容。

接下来我先总结一下前面说过的内容。

对于不同类型的分类方法,标注的成本有高有低,所取得的分类准确率也有高有低。对于监督分类,能够取得很高的分类准确率但同时标注的成本非常高;而对于半监督和非监督分类,标注的成本都比较低(甚至没有),但取得的分类准确率并不高。

如何让左下角的这两种方法(即半监督和非监督分类)能够取得较高的分类准确率,同时保持比较低的标注成本?

这是我们所面临和需要解决的难题。

image

现在深度学习技术非常热门,但我今天讲的东西不是深度学习,这并不是说要忽视深度学习,其实这个话题跟深度学习也是有关系的。

模型方面,从简单到复杂,我们有线性模型、增量模型、基于核函数的模型和深度学习模型等;机器学习方法方面,有监督学习、无监督学习、半监督学习和增强学习等。

任意的学习方法和模型都是可以相结合的,不过我今天要讲的东西是关于学习方法的,它可以使用任何的模型,包括深度学习模型。当然我更倾向于使用线性模型,因为这更简单,如果你想使用更加复杂的模型也是完全可以的。

image

下面是今天演讲的议程,接下来会给大家介绍四种不同的分类方法,后面如果有机会我会介绍一下理化学研究所AIP研究中心。

image

相关文章
|
8天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之机器学习PAI的学习方法不知道如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
8天前
|
机器学习/深度学习 人工智能 并行计算
人工智能平台PAI产品使用合集之机器学习PAI中特征重要性的原理不知道如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
8天前
|
机器学习/深度学习 存储 人工智能
人工智能平台PAI产品使用合集之如何通过通用文本标记解决方案文档与PAI机器学习平台一起使用
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
6天前
|
机器学习/深度学习 算法 数据可视化
【Python 机器学习专栏】机器学习中的监督学习与无监督学习
【4月更文挑战第30天】本文探讨了监督学习和无监督学习的概念、原理及应用。监督学习依赖于已知标签,通过学习输入与输出的关系进行预测,如线性回归、逻辑回归等,常用于信用评分、疾病诊断等。无监督学习则在无标签情况下发现数据隐藏结构,如聚类和主成分分析,适用于客户细分、数据可视化等。两者在实际中常结合使用,以提升模型性能和泛化能力。理解这两种方法对于解决复杂数据问题至关重要。
|
8天前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI产品使用合集之机器学习PAI可以通过再建一个done分区或者使用instance.status来进行部署吗
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
8天前
|
机器学习/深度学习 人工智能 API
人工智能平台PAI产品使用合集之机器学习PAI中的sample_weight怎么加在样本中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
8天前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI产品使用合集之机器学习PAI EasyRec中的eval_config的使用方法是什么
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
8天前
|
机器学习/深度学习 人工智能 NoSQL
人工智能平台PAI产品使用合集之机器学习PAI EasyRec训练时,怎么去除没有意义的辅助任务的模型,用于部署
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
8天前
|
机器学习/深度学习 人工智能 算法
人工智能平台PAI产品使用合集之PAI机器学习预置处理器在部署完成后怎么进行调用
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。