中国人工智能学会通讯——图像系统模拟

  1. 云栖社区>
  2. CCAI>
  3. 博客>
  4. 正文

中国人工智能学会通讯——图像系统模拟

行者武松 2017-09-01 14:33:00 浏览928

image

首先跟大家介绍一下斯坦福的图像系统工程中心,我是这里的执行主任,这是斯坦福的工程技术学院和相应的公司一起建立的中心。我们希望能够推进人与人之间的交互,当然也是利用这个图像系统。我们其中一个重要的任务,就是要推进多学科的培训研究和合作,这对我们很关键。我们整个大学的所有教授在神经科学、计算机科学和工程心理学等方面都有他们自己的建树,而且我们也在实现跨学科的研究。

我在施乐工作了一段时间,当时研究了图像的交汇界面,那时已经认识到了多学科、高素质人才之间合作的重要性。我们当时有不同专长的人才相互合作,建立了HP的研究室,而且所有的不同学科的科学家不断地在提升我们的图像系统,我们当时还征询了一些心理学专家的意见。

我离开HP以后做了一段时间的咨询,我也在帮助企业做手机,我们很清楚一点,必须有相关学科的团队一起合作。我记得当时去了一个企业,他们给我展示了一张图像,看了以后就问这个图像有什么问题。当时我看到一个团队正在就过程管理进行讨论,我又和光学相关的主任进行了讨论,也和感应器方面的主任进行了交流,还与显示器方面的相关领导进行了交流,我发现他们各自为战没有太多的交流。我们需要有一个工具让他们一起合作,因为不同的团队,他们有自己的小世界,比如说感应、视觉、光纤、显示器等,但是它们应该都是一体的。因此,我们开发了一个图像系统工程工具箱,可以把它当作一个模型来推进图像的处理,而且可以让工程师在这个系统上进行沟通。我们也把这个系统介绍给了很多做手机摄像器的公司,可以让他们不同团队相互交流,调整图像处理的系统,调整他们的摄像头。我们发现只要有硬件的源头,他们就可以做出一个模拟器。还有手机,包括苹果、华为等等涉及的摄像器,这些都可以模拟整个图像系统处理过程。而且我们也可以从中研究怎么样改变其中的一部分,就造成整个效果的改变,我一会跟大家详细讲这个问题。这里先指出下一代的图像处理系统,光域360度环绕式拍摄的摄像机,还有头戴摄像器。我们先讲电子数码摄像机的图像系统,再讲新的图像系统和它们的原形。先给大家讲工具箱,还有手机的摄像器,我们将利用这个系统开发一个基于机器学习的手机摄像器。很多企业也在用更新的项目实现这种平衡,就是像素、分辨率、动态、范围、滤镜等等都在实现平衡,我希望能够表现出来图像系统模拟的强大力量。当然,我们也希望把这个进程扩展到其他的图像系统,比如说视频,还有汽车的智能。之后,我会跟大家讲更多的应用领域,大家就明白我们为什么要去开发这些工具。

最开始,我们认为必须要去评估所有的图像系统的部件,我们就建了很多模型单元,进行了计算模拟。我们对光学元件、对感应器ISP和显示器,以及人的视觉系统的属性都进行了一些模拟。这是另外一个实验,有一些单元是非常有意义的,有一些单元是没有意义的,我们需要有一个非常有意义的单元,要用非常有意义的单元进行描述。比如说,描述一个场景时,我们就会描述这个场景当中每一个因素,百分之百进行一些描述;我们就会将这个场景当中所有物体都进行描述,就会看到所有的物理的单元都会在这个单元里展示出来;我们可以看到光电的情况,所有的物理单元都会展示在描述当中,这些都是非常有用、有意义的单元。我们还做了其他的事情,比如改变了照明的一些辐射源等。

我们现在来看光学元件方面,这也是连接到传感器,我们也有一个模型,这里我不跟大家详细展示了。我给大家发送一个软件的链接,大家可以点开链接,在这个图形当中对光子进行描述。在这个场景当中光学元件展示出来,我们就可以对光学元素进行模拟,将辐射源展示出来。可以看到,所有的光子以什么样的速度照射到屏幕上。

接下来我们看一下描述传感器方面的内容,也会对光伏进行捕获,会对传感器每个像素进行描述。我们会将这些传感器当中的光子进行描述,所有的这些内容都进行计算,可以计算出传感器的像素和光伏等。另外还会将噪音的源头纳入到计算当中,可以看到在这个场景当中,这些噪音是从哪里来的,这些所有的属性都会纳入到我们的建模当中。我们从这个传感器来到图像处理这部分,这是苹果公司和其他公司考虑的问题,他们会对一些丢失的传感器的值进行连接,并且对色彩进行转化,并且降噪,他们采取了很多措施制造出非常高质量的图像。我们需要对图像的质量进行优化,这也是很多公司非常关注的问题,后面我会给大家讲讲我们的图像处理系统是如何运作的。

有了这个图像以后就要展示出来,这就要有一个显示器,在这个显示器上会对这个场景进行显示,就会知道光源是从哪里来的。我们会对光子进行计算,这也是属于物理单元的一部分;也就是说,每秒钟、每纳米、每平方米有多少光子打到了显示屏当中,这些因素都会显示出来。这部分不详细讲了,大家可以从显示屏转换到人类的视觉系统的处理当中,这是一个非常复杂的内容,如果大家感兴趣,我在另外的项目当中给大家介绍人类视觉系统的运作。

刚才也提到了,我们有一个完整的图像处理系统,在这里举个例子。这个图像处理系统是基于机器学习的,我们可以定制化的定律图像处理,进行一些新型的图像处理的工具也是有可能的。因为我们可以进行模拟,找到一些例子进行图像的处理;可以对图像处理系统进行模拟,这样产生出新的图像处理的方法,在这里发表了很多的论文,如果大家有兴趣我给大家一些链接,可以看到一些算法,如何使用这些图像处理系统。现在人们花了很多时间建立这种图像处理的系统,可以看到有一些光的过滤器,还有一些传感器等,摄像头就会有非常清晰的图像效果出来。另外,人们还可以使用一些其他的方法来处理图片,可以得到非常高质量的图片,像素也是非常高的;还可以对一些光源进行过滤,这样图像质量就会非常清晰。但是也存在这些问题,如目前还没有图像处理的产品出来,所以我认为所有的图像处理都是要非常个性化的。刚才我给大家介绍了系统,我们有一些多光谱的图像处理系统,这也是我们的动机。我们要开始进行系统的建立,将所有的像素和光子都能够显示出来,再将光谱的照射描述出来。所以从场景开始,也是从场景结束的。不仅仅是对传感器进行模拟,而且对光学元件也进行模拟,对场景进行模拟。我们可以告诉大家,模拟出来的场景是什么样的。在显示屏上显示出来我们有一个场景,我们就会知道理想的效果是什么,从摄像头出来的图片的效果是怎样的,然后就会进入到传感器中。这是我们模拟预测的结果,摄像头出来图片的效果。可以使用不同的图片,有一些是我们获得的图片,有一些是理想化的图片,有一些是像素非常高的图片。可以将像素纳入到RGB系统当中,我们在使用这个系统时也会进一步改进,也会找到最佳的图片效果是如何处理出来的。

比较一下过去的传统图像处理系统也是从RGB开始的,我们再进行一些图像处理的过程,就会有一些校正,这是所有人都会做的。我们会对光影进行校正,然后就会进行个性化的处理,降噪、算法的计算等。所有的算法都会进行优化,总结成两个步骤,第一个是要选择正确的像素;第二个是对图像进行处理。这也是当地的系统,可以根据这个算法进行图像的处理。

我给大家总结一下,设计这个系统的原因。大家可以看到,右边是RGBW的输出,它的图像是非常灰暗的,光亮度在降低,但是可以从低的光亮度增加到高的光亮度,我们才能看到一个清晰的图片,这也就是为什么需要RGBW的原因。有了这个图像处理系统,就可以增加图像的光亮度,但是如果使用传统的模式,就不能增加图像的光亮度。我们是基于模拟进行这个系统的建立,也会在真实的场景当中应用这个系统,包括一些传感器和光学元件,也在其他的系统当中运用了这个原理。但是基本的观点,就是我们需要制造原形,这是非常重要的。如果没有模拟,这个系统就无法建立。

这是一个非常好的系统,再看下一个步骤,就是我们现在需要的步骤。目前系统的应用还是有一些局限性,有一些特定的情况是很难捕获图片,视频的问题也是比较困难的。另外需要一些深度的信息,还有一些生活化的场景,也需要它们进行图片的捕获,这是我们目前受到的极限性。这是展示出来的例子,我们在获取信息时遇到的问题。我们需要使用新的图像处理系统,左手给大家展示的是36度全面视频的图像系统,可以使用特定的摄像头寻找解决方案。我们需要在建立系统之前进行模拟,需要对场景进行模拟,可以在模拟当中、在这个场景当中去设置一些摄像头;另外还需要获得3D的功能,这个新的图像处理系统就能够捕获和展示3D的信息。所以第一件事情就是增加一些有意义的单元;然后就可以进行3D图像展示,使用一些工具箱进行图像的展示和视频的拍摄。最终有这样一个检测的系统流程,从光学元件到传感器、到显示屏,再到人类的视觉系统等。还有模型的演示,我之后会更多跟大家讲解,这里有更多的图片,第一代我之前也讲过,就是基于第一代学生,包括肖博士,他在斯坦福也工作过一段时间。第二代,这是我们更年轻的一批学生,他们都是图像系统模拟中的一些专家。

大家可能注意到了,我们这里做的就是把光学系统当中的图景取出来,用3D的图像效果进行渲染、进行再追踪,或者用不同的图像作为我们常规的感应器模拟的基础。因此,我们也制作出了3D的网格,以及表面质感和色彩方面的模型,还有景深地图等。这种混合器可以实现3D的虚拟场景的模拟,可以控制光线、控制色彩光线的位置,还有摄像头的位置,可以发现光线的平谱分布,还可以利用模型调整镜头。建立这个模型用了混合器,用PBRT提升光学成像这也是我们尝试做的。当然也可以改变场景的光照、改变相继的镜头。比如,这里有一个光域,用了光域图像系统,还可以改变场景的光照,这些都是我们做过的调整。在这个基础上,就有了一个光学成像,它可以考虑景深。

现在我们来看频谱上另外一段,就是就不同的感应器进行建模。比如光域的中心、不同的成像感应器,还有我之前跟大家展示过的不同模型。这种感应器滤镜,可以通过模拟排除噪音,这里讲我们如何利用第二代的图像系统,如何应用它。Trisha为我们设计了光学系统,还有360度的环绕成像系统,她创造了一个3D场景,比如Facebook的镜头可以进行调整,比如频谱系统,还有不同的单元都可以进行模拟,还有光学中心也可以建模。这里我给大家展示一些模拟状况,比如在Facebook系统中,大家会看到不同的广角感应器照出来的照片效果,虚拟的场景更加写实,大家就知道出来的照片是什么样的。这里我们得到了不同的图像后,就可以建立一个立体的光域照片,还可以把不同的照片调整变成全景照片,所有这些算法也在进行实验。我们也知道理想的全景照相机应该是怎么样的,如果用软件进行计算评估,你会发现改变相继的数量或者使用软件改变镜头的种类等,都可以在模拟中进行,去观察它的效果,最后的图像质量也会受到影响。

另外一个例子,这是Blasinski教授做的项目,光线是怎么通过媒体进行传播的,我们做了很多模型,包括PBRT。光线如何被水折射和散射,因此我们建立了这样的模型。没有水时,图像将会是什么样的质量;如果有水的话,图像的质量会不一样。大家可以看到,这种长波光线都会被吸收,照出来的图像质量就有一点不一样,我们在这方面也会给大家介绍很多论文。

下一步的应用是怎么样的?就是利用环境因素,之前跟大家讲过,我们怎么样用环境对于设备进行模拟。产品是用于人类消费的,当然机器学习应用也更需要我们有更多的观察。我们现在知道了现状如何,可能大家比我更清楚,也就是有非常多的训练极可以利用,可以培训机器、培训算法,让它们学会识别鱼;还有一些测试图像,让它们识别鱼。当然我们在这里可以让机器人进行深度学习,可以让它们辨认看到场景当中的人物和动物等;当然也对这些场景进行刚学的处理,这都是基于GRB图像的。这张图片的具体来源不清楚,我们不知道镜头到底是什么样的质量、什么样的类型,也不知道图像处理算法是怎样的,感应器企业是哪一家,什么都不知道;你也不知道它怎么样进行调整过后,会影响机器学习最终的效果和能力。另一方面,自动驾驶方面深度学习的意义,应用非常重要,因此我们在这里装了很多的感应器。这里就有,如果在危险的驾驶条件下,或者是环境比较差的环境下,我们都可以进行模拟。现在越来越多的人,开始用3D图像模型建立这种模拟系统进行机器学习,特别是这种自动驾驶汽车,还有自动驾驶的智能,我们认为这个特别好,可以制造这种虚拟的场景。还有图像上相关的标记,还有不同的地点、相关的信息都可以收集的更足。但是我们唯一的限制就是在于它是RGB格式的,还有帖头和光学。我们和吉林大学进行了合作,我们加上平谱光学的工具,之后对感应器的设计进行了模拟和建模,对于深度学习和人工智能的设备进行了测试,所有这些都可以让我们看到这里有一个3D的场景,这是我们得出的结果。我们在这里只要装上照相机,就可以发现在不同的场景下,照出来照片的性质也是不同的;也可以猜测这个相机可能捕捉照片的样子;还可以改变成像感应器的性能、改变镜头的效果。所有这些都是我们进行的模拟。比如在雾天进行测试,看一下机器学习,算法是什么样的,那有什么挑战?3D场景来源很多,但是没有统一的标准。在VR领域工作的人很清楚,我们有非常多的3D内容,但是没有一个统一的、可以在实际状况之下应用的标准,这是一个大问题。如果我们想增加光谱反射方面的要素,必须要让它有一个物理的单位,比如以米为单位,这就是我们的挑战之一。

还有就是在计算硬件方面的条件,当然人力方面有调整,可以提升图像的硬件,但是这要求我们去具体问题具体分析,去个性化我们的系统,希望有专业人士在这方面努力。未来我们要建立大的、可靠的图书馆,可以叫数据库;当然也希望加快光线的跟踪,同时维持我们的计算清晰度,也希望建立更加活跃的社区。

(本报告根据速记整理)