斯坦福大学将人工智能技术直接融入摄像头中 - 工业4.0 - ENI经济和信息化网

当前位置：首页 >产经•城市 > 产经 > 工业4.0 > 正文

斯坦福大学将人工智能技术直接融入摄像头中

来源：extremetech 作者：佚名 2018-08-22 13:36:37

本文由腾讯数码独家发布直到最近几十年，相机的作用才专门为普通人而设计。无论是为了好玩，为了艺术，还是为了记录历史。随着机器人技术的...

本文由腾讯数码独家发布

直到最近几十年，相机的作用才专门为普通人而设计。无论是为了好玩，为了艺术，还是为了记录历史。随着机器人技术的快速发展，以及各种各样的自动驾驶汽车，需要从自己所处的环境中观察和学习，许多相机都是专门用于完成机器视觉任务的。其中一些最明显的，比如自动驾驶汽车，严重依赖于物体识别，这几乎是普遍的意思是神经网络对常见的物体进行训练。在包括电动汽车在内的许多嵌入式系统中，机器视觉的部署是一个限制，这是必要的计算和电力。因此，重新设计相机的设计，考虑什么是特定应用程序的理想相机架构，而不是简单地重新设计现有的相机模型是有意义的。

本着这样一种精神，来自斯坦福大学由助理教授Gordon Wetzstein和研究生Julie Chang领导的一个团队，建立了一个系统的原型，将一个物体识别神经网络的第一层直接移动到相机的光学上。这意味着所需的推理的第一部分基本上没有时间，也没有权力。虽然他们目前的原型是有限的和笨重的，但它为一些新颖的方法指明了在物联网、车辆和其他嵌入式应用程序中创建低功耗、高性能、推理解决方案的方法。这项研究从人工智能、成像和光学上得到了大量的研究，因此我们没有任何方法可以在一篇文章中详细描述整个系统。下面我们会带你去看那些让原型变得如此有趣的亮点和一些突破。

基本对象识别神经网络风格

大多数当前的对象识别系统都使用一个多层神经网络。艺术系统的状态通常包括几十层，但有可能解决简单的测试套件，比如MNIST、谷歌的QuickDraw、和Cifar 10，只有一层或两层。无论网络有多深，第一层或层都是典型的卷积层。卷积是在图像上传递一个矩阵(称为内核)的过程，在每个位置乘以它，并对结果求和以创建一个激活矩阵。简单地说，这个过程突出显示了与内核模式相似的图像区域。典型的系统涉及多个内核，每个内核都反映了被研究对象中发现的一个特性。当网络被训练时，这些内核应该开始看起来像那些特性，因此产生的激活映射将帮助稍后的网络级别识别特定的对象，其中包括各种特性的例子。

之后的网络层通常是完全连接的，这比卷积层更容易计算。斯坦福的混合光学数码相机并没有解决这些问题，而是用一种光学替代品代替了计算昂贵的初始卷积层，而这个团队称之为opt-conv层。传统的光学系统没有任何简单的方法可以在图像上与任意的内核进行卷积，更不用说多个同步的卷积了。然而，如果图像首先使用傅里叶变换将其转换为频率，那么快速卷积就有可能成为可能——因为在频域中相乘就像在传统的空间域中执行卷积一样。

为了利用这一特性，研究小组利用傅里叶光学技术，建立了所谓的4F光学系统。一个4F系统依靠一个初始透镜来呈现图像的傅里叶变换。该系统允许使用中间过滤器或过滤器处理转换后的图像，然后用最后一个镜头反转转换，并呈现修改后的结果。

光学计算

进入到斯坦福的原型技术中，包含了很多很深奥的光学部分，但是它基本上把一些强大的技术结合在一起我们可以很简洁地描述(如果没有完全解释的话)

首先，它是傅里叶变换的一个众所周知的特征(它接受一个信号或图像，并以频率的形式呈现它)，你也可以翻转它，把原始图像放回去。重要的是，你可以用一个简单的光学系统来做这个，只有几个透镜，叫做4F光学系统(这整个光学领域叫做傅里叶光学)。

第二，如果你通过一个部分不透明的表面来过滤图像的傅里叶变换，这和执行卷积是一样的。

第三，你可以将多个内核平铺到一个过滤器中，并将它们应用到原始图像的填充版本中。这模拟了一个多内核系统的行为，它通常会产生一个多通道输出，通过创建一个输出一个平铺的等效项，如下所示：

所以通过计算所需的内核使用传统的机器学习技术,他们可以用来创建一个自定义过滤器——的形式阶段不同厚度的面具,可以添加到午夜4F系统立即执行玲珑如光穿过设备。

训练和实现光学卷积层

建议的光学系统的一个限制是，硬件过滤器必须根据训练的重量来制造。所以用这个系统来训练自己是不现实的。培训是通过对系统的模拟来完成的。一旦确定了所需的最终重量，它们就被用来制造一个相位掩模(一个具有不同厚度的过滤器，它改变了通过它的光的相位)，有16个可能的值，可以与4F光管道一起放置。

混合光学电子摄像系统的性能

斯坦福的研究团队在模拟和使用他们的物理原型时评估了他们的解决方案的性能。他们测试了这两种方法，既可以使用谷歌的QuickDraw数据集来创建独立的光学相关器，也可以作为两层神经网络的第一层，与一个完全连接的层相结合，使用Cifar-10数据集完成基本的对象识别。即使考虑到光学系统的限制，所有的重量都必须是非负的，作为一个相关器，系统的精度在70%到80%之间。

这类似于使用标准机器学习技术创建的更传统的卷积层，但不需要有驱动计算元素来执行卷积。类似的，使用混合光学电子第一层的两层解决方案在cifar 10上实现了大约50%的性能，与传统的两层网络差不多，但其计算能力的一小部分，以及典型解决方案的电能的一小部分。

虽然目前的原型体积庞大，而且需要单色光源，而且只需要使用灰度图像，但该团队已经开始考虑如何在更典型的光照条件下和全彩色图像进行扩展。类似地，4F系统本身也可以通过使用平面衍射光学元件来代替当前的透镜来缩小尺寸。

该团队还表示，他们将针对自己的系统公开提供完整的源代码。

编辑：张洁

关键字：人工智能摄像头相机