CapsNet 再升级!无监督学习图像特征,取得最先进结果

简介: 胶囊网络的改进版本

雷锋网 AI 科技评论按:CapsNet 作者 Sara Sabour 联合 Geoffrey Hinton 及牛津大学研究者在最新的论文《Stacked Capsule Autoencoders》中提出胶囊网络的改进版本,该胶囊网络可以无监督地学习图像中的特征,并取得了最先进的结果。

TB1X_4Nd8Cw3KVjSZFlXXcJkFXa.png

一个物体可以看作是一组相互关联的几何组成部分,因此,一个明确利用这些几何关系来识别物体的系统,在应对视点的变化上理应具有鲁棒性,因为内在几何关系的视点是不会有变化的。

在这篇论文中,他们提出一个无监督版本的胶囊网络,通过可查看所有部件的神经编码器,进而推断物体胶囊的位置与姿势。该编码器通过解码器进行反向传播训练,通过混合式姿势预测方案来预测已发现部件的姿势。同样是使用神经编码器,通过推断部件及其仿射变换,可以直接从图像中发现具体的部件。换句话说,每个相应的解码器图像像素建模,都是仿射变换部分做出的混合预测结果。他们通过未标记的数据习得物体及其部分胶囊,然后再对物体胶囊的存在向量进行聚类。

最后,该成果在 SVHN 上获得了最先进的无监督分类结果 (55%),同时在 MNIST 上获得了接近最先进的分类结果。(98.5%)。

TB1zxXQd8Cw3KVjSZFuXXcAOpXa.png

该胶囊网络全名 Stacked Capsule Autoencoder (SCAE),具体可分为两个阶段:Part Capsule Autoencoder(PCAE)及 Object Capsule Autoencoder (OCAE)。

PCAE 负责将图像分割成组件,借此推断其姿势,并将图像像素重构为转换后的部件模板像素的混合产物;OCAE 则试图将发现的部件及其姿势组成更小的一组对象,再结合针对每个部件的混合预测方案来解释部件的姿势。

每个物体胶囊通过将姿势-对象-视图-关系(OV)乘以相关的物体-部件-关系 (OP) 来为这些混合物提供组件。SCAE 在未经标记的数据上进行训练时借此捕获整个物体及其部件之间的空间关系。

TB1iTJHd8iE3KVjSZFMXXbQhVXa.png

Stacked Capsule Autoencoder (SCAE)

总的来说,该工作的主要贡献在于提出了一种全新的表示学习方法,其中高度结构化的解码器可以用来训练编码器网络,进而将图像分割成相应的部件及其姿势,而另一个编码器网络则可以将这些部件组成连贯的整体。尽管训练目标不涉及分类/聚类,但 SCAE 依然是唯一一个在无监督对象分类任务中不依赖于互信息(MI)中也能获得有竞争力结果的方法。

via https://arxiv.org/pdf/1906.06818.pdf

雷锋网 AI 科技评论 雷锋网(公众号:雷锋网)

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 安全
探索深度学习在图像识别中的边界
【2月更文挑战第29天】 随着人工智能的迅猛发展,深度学习技术已成为推动计算机视觉领域进步的关键力量。本文将深入探讨深度学习在图像识别任务中的应用,并分析其面临的挑战与限制。我们将通过一系列实验和案例研究,揭示当前模型在处理复杂场景、细微差异识别以及对抗性样本时的局限性。同时,文章还将展望潜在的解决方案和未来发展方向,为该领域的研究者和实践者提供参考。
|
24天前
|
机器学习/深度学习 数据采集 人工智能
利用深度学习优化图像分类准确性
【4月更文挑战第3天】 在本文中,我们将探讨如何通过深度学习技术提高图像分类的准确性。随着大数据和计算能力的快速发展,深度学习已成为解决复杂问题的重要工具,特别是在图像识别和分类任务中显示出了卓越的性能。文章首先概述了深度学习在图像分类中的应用背景,随后详细介绍了卷积神经网络(CNN)的基本原理及其在图像分类中的关键作用。接着,我们展示了通过数据增强、网络结构优化和正则化技术等方法来提升模型性能的策略。最后,文中通过实验验证了这些策略在提高分类准确性方面的有效性,并讨论了未来可能的研究方向。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能的优势:使用 GPT 和扩散模型生成图像
生成式人工智能正在席卷全球,对我们创建的内容产生潜在的深远影响。通过本教程学习 AI 图像生成的基础知识并生成复杂的艺术渲染。
123 0
|
8月前
|
机器学习/深度学习 数据采集 编解码
使用深度学习模型CNN进行实时情绪检测研究(Matlab代码实现)
使用深度学习模型CNN进行实时情绪检测研究(Matlab代码实现)
100 0
|
机器学习/深度学习 算法 数据库
基于深度学习的多人步态识别系统(目前数据集大小124人,准确率96.5%)
基于深度学习的多人步态识别系统(目前数据集大小124人,准确率96.5%)
基于深度学习的多人步态识别系统(目前数据集大小124人,准确率96.5%)
|
10月前
|
机器学习/深度学习 人工智能 文字识别
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
|
11月前
|
机器学习/深度学习 计算机视觉
深度学习中的目标识别
深度学习中的目标识别
154 0
|
11月前
|
人工智能 编解码 自然语言处理
一句话生成3D模型:AI扩散模型的突破,让建模师慌了
一句话生成3D模型:AI扩散模型的突破,让建模师慌了
785 0
|
11月前
|
机器学习/深度学习 自动驾驶 算法
深度学习/自动驾驶数据集大集合(目标检测/图像分割/语义分割/图像分类/)
深度学习/自动驾驶数据集大集合(目标检测/图像分割/语义分割/图像分类/)
336 0
|
机器学习/深度学习 传感器 SQL
领域最全 | 计算机视觉算法在路面坑洼检测中的应用综述(基于2D图像/3D LiDAR/深度学习)(下)
本文首先介绍了用于2D和3D道路数据采集的传感系统,包括摄像机、激光扫描仪和微软Kinect。随后,对 SoTA 计算机视觉算法进行了全面深入的综述,包括: (1)经典的2D图像处理,(2)3D点云建模与分割,(3)机器/深度学习。本文还讨论了基于计算机视觉的路面坑洼检测方法目前面临的挑战和未来的发展趋势: 经典的基于2D图像处理和基于3D点云建模和分割的方法已经成为历史; 卷积神经网络(CNN)已经展示了引人注目的路面坑洼检测结果,并有望在未来的进展中打破瓶颈的自/无监督学习多模态语义分割。作者相信本研究可为下一代道路状况评估系统的发展提供实用的指导。
领域最全 | 计算机视觉算法在路面坑洼检测中的应用综述(基于2D图像/3D LiDAR/深度学习)(下)