AI新技术：利用神经网络对图片进行超级压缩

2017-10-20 4414

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 像神经网络这样的数据驱动算法已席卷全球。他们最近的激增是由于硬件变得更加便宜也更加强大，同时也不缺乏大量的数据的支持。神经网络目前发展到“图像识别”，“自然语言理解”等认知任务，当然也仅限于此类任务。

像神经网络这样的数据驱动算法已席卷全球。他们最近的激增是由于硬件变得更加便宜也更加强大，同时也不缺乏大量的数据的支持。神经网络目前发展到“图像识别”，“自然语言理解”等认知任务，当然也仅限于此类任务。在这篇文章中，我将讨论一种使用神经网络压缩图像的方法，以更快的速度实现图像压缩的最新技术。

本文基于“基于卷积神经网络的端到端压缩框架”（https://arxiv.org/pdf/1708.00838v1.pdf）。

你需要对神经网络有一些熟悉，包括卷积和损失函数。

什么是图像压缩？

图像压缩是转换图像使其占用较少空间的过程。简单地存储图像会占用大量空间，因此存在编解码器，例如JPEG和PNG，旨在减小原始图像的大小。

有损与无损压缩
图像压缩有两种类型：无损和有损。正如他们的名字所暗示的那样，在无损压缩中，有可能获取原始图像的所有数据，而在有损压缩中，有些数据在转换中丢失。

例如JPG是一种有损算法，而PNG是一种无损算法

279bda9bc536e5284d08c2b7189cf2c74042a725

无损和有损压缩之间的比较

仔细看会发现右边的图像有很多小块，这就是信息的丢失。类似颜色附近的像素被压缩为一个区域，节省了空间，但也丢失关于实际像素的信息。当然，像JGEG，PNG等编解码器的实际算法要复杂得多，但这是有损压缩的良好直观示例。无损当然好，但它在磁盘上占用了太大的空间。

虽然有更好的方法压缩图像而不会丢失大量信息，但是它们太慢了，许多使用迭代的方法，这意味着它们不能在多个CPU内核或GPU上并行运行。这使得它们应用在日常使用中并不现实。

进入卷积神经网络

如果需要计算任何东西并且可以近似，就可以让一个神经网络来做。作者使用一个相当标准的卷积神经网络来改善图像压缩。他们的方法不仅能达到“更好的压缩图像方法”的效果，还可以利用并行计算，让速度的快速提升。

因为，卷积神经网络（CNN）非常擅长从图像中提取空间信息，然后以更紧凑的结构表现（例如，仅存储图像的“重要”比特）。作者想利用CNN的这种能力更好地表现图像。

架构

作者提出了一个双重网络。第一个网络，将采集图像并生成压缩表示（ComCNN）。然后，这个网络的输出通过标准的编解码器（例如JPEG）进行处理。经过编解码器后，图像将被传递到第二个网络，从编解码器“修复”图像，试图恢复原始图像。作者称之为重建CNN（RecCNN）。这两个网络都被反复地训练，类似于GAN。

440919bdbd6a1c62a46ba03fa25cf03fc00f39b3