关于「光学神经网络」的一切:理论、应用与发展
在电场作用下,沿平行和垂直于电场方向的偏振光波的折射率n//和n⊥在介质中会发生不同的变化,它们之间的差值Δn与电场的二次方幂成正比,从而产生诱导双折射。目前已经出现了石墨烯、PCM、EIT等优秀的非线性激活剂,但在光域实现非线性功能还面临着巨大的挑战:首先,光非线性相对较弱,其产生一般需要很高的光功率,大大增加了能耗。未来,我们可以尝试实现这种光学衍射神经网络,并加入非线性工作,比如使用光折射晶
/目·录/
一、线性运算的光学实现
1.1. 光学矩阵乘法器
1.2. 光的衍射实现线性运行
1.3. 基于Rayleigh-Sommerfeld方程的实现方法
1.4. 基于傅立叶变换的实现
1.5. 通过光干涉实现线性操作
1.6. 光的散射实现线性运行
1.7. 波分复用(WDM)实现线性运行
二、非线性激活函数的光学实现
2.1. 非线性光学效应
2.2. 在光子神经网络中实现非线性激活
三、发挥光电技术与人工智能结合的优势
随着大数据时代的到来,人工智能不断受到各界关注,并在医学图像分析、分子与材料科学、语言识别等领域得到了广泛应用。作为人工智能的基础,神经网络的研究成果令人瞩目。
然而,由于电信号易受干扰、处理速度与能量损耗成正比等固有缺陷,研究人员将目光转向了光,试图在光学领域构建神经网络,充分利用光的并行处理能力来解决电子神经网络存在的问题。经过不断的研究和发展,光神经网络已经走在了科技研究的前列。
作为计算机科学中最活跃的领域之一,人工智能主要是通过构建人工神经网络(ANN)来模拟神经系统的结构,建立神经网络各层神经元之间的联系,使其具有良好的泛化能力和鲁棒性。自20世纪80年代以来,人工神经网络的研究工作取得了长足的进步:在模式识别、智能机器人、自动控制、预测与估算、生物医学、经济等领域,成功地解决了许多现代计算机难以解决的实际问题,具有良好的智能特性。
目前,电子计算仍然是实现人工智能算法,尤其是在深度ANN模型最重要的计算力支撑。虽然具体的硬件架构各不相同,但总的来说,都是采用冯·诺依曼式计算原理,通过复杂的逻辑电路和处理器芯片来完成计算任务。
最初的神经网络架构使用CPU进行计算,但无法满足深度网络中大量浮点运算的要求,尤其是训练阶段。而且并行计算效率太低,很快就被并行计算能力强的GPU所取代——可以说,GPU推动了深度学习的发展。
冯·诺依曼架构方案
然而,深度学习对计算能力的需求是无止境的。受限于电信号的干扰、能耗和物理限制,虽然现在以硅为基础的电子元件还能支持,但传统的深度学习已经悄然出现了瓶颈。学术界和工业界试图寻求其他方法来解决电子缺陷,从而在计算能力上有所防范。由于光速高达每秒30万公里,是电子速度的300倍,信息承载能力和种类是电通道的2*10^4倍,且并行性高、抗干扰性强,在信息传输和光计算方面具有巨大优势。如今,以“光”代“电”已成为一种有潜力、有前景的工作模式,是时代发展的趋势。
因此,人们尝试用光的方式构建神经网络,实现深度学习架构;光神经网络(ONN)随着时代的要求应运而生。它具有高带宽、高互联和内部并行处理的特点,可以加速软件和电子硬件的部分运算,甚至达到“光速”,是一种很有希望取代人工神经网络的方法。
在光子神经网络中,矩阵乘法可以以光速进行,能有效解决人工神经网络中的密集矩阵乘法,从而减少能量和时间的消耗。此外,人工神经网络中的非线性也可以通过非线性光学元件来实现。一旦完成光神经网络的训练,整个结构就能以光速进行光信号计算,而无需额外的能量输入。
1978年,斯坦福大学的古德曼(Joseph Goodman)首次提出了光矢量矩阵乘法器的理论模型,成为光计算领域的重要一步,并推动了光矩阵乘法器(OMM)和光子神经网络的发展。
约瑟夫·古德曼
(a)ANN的结构;(b)神经元的原理
ONN是ANN线性和非线性运算的光学实现,神经网络的结构和神经元的工作原理属于线性运算zi = bi + ∑jWijxj 和非线性激活 ai = ϕ(zi),因此,神经网络需要大量的线性乘法运算和求和运算。
这种乘加运算在算法中最直接的体现就是给出两组数据,在“for”循环中进行乘加运算。如果我们简单地思考这个问题,就会发现完成这个运算需要多次迭代,会浪费大量的计算资源。因此,人们开始寻求一种更快的方法:矢量化方法,它可以将其转化为两个矩阵(即输入矩阵和权重矩阵)的乘法运算。
我们知道,使用电子计算机很容易实现两个矩阵之间的计算,但当矩阵维数非常大时也很难实现。并且,利用计算机实现乘法运算非常耗时。但是,如果利用光的高速度、高并行性和抗干扰性,通过光学手段实现这一运算,很可能只需要几次运算,甚至只需要一次运算。在神经网络的训练中,我们需要处理和分析的数据极其庞大;此时,光学的特性就显得极为重要,它可以为计算带来极大的便利。光学矩阵乘法器的出现为光学计算奠定了基础,也为神经网络光学提供了发展路径。
接下来,我们将简要介绍光学矩阵乘法器,它是线性乘法和求和运算的基本光学实现方式——即矩阵乘法,然后从实现乘法运算的不同原理出发,说明如何在光学神经网络中实现线性运算。
1)光学矩阵乘法器
矩阵乘法是矩阵运算中非常重要的运算,其计算过程比较复杂。简单地说,两个矩阵之间的乘法运算就是将第一个矩阵的第i行对应元素与第二个矩阵的第j列对应元素逐一相乘相加,得到结果矩阵元素cij,也称为内积运算。
只需遍历一次两个矩阵的行或列,即可得到乘法结果矩阵。如果A = (aij)m × s,B = (bij)s × n,矩阵乘法运算定义如下:
事实上,乘法是一个数字多次累加的过程;相应地,矩阵乘法就是多个不同数字经过多次累加后的和。在电子计算机中,累加器作为核心运算单元,可以用来实现矩阵乘法运算。同样,这种光学乘法器也可以设计成光子计算系统的核心,具有二维并行性。光学乘法是光信息加载和转换的过程,光学乘法器负责实现这一过程。
光学矩阵乘法器。(a)光学乘法器。(b)向量-矩阵乘法系统的结构。(c)4f系统实现的矩阵-矩阵乘法
光学矩阵乘法器充分体现了光的并行计算能力,OMM完成的光线性运算本质上是通过一定的方法和光的一些特性,如衍射、干涉等,进而实现对信息载体光的调制。
2)光的衍射实现线性运行
光在空气中沿直线传播。当遇到障碍物或小孔时,光就会偏离直线传播路径,从而产生光强分布不均匀的现象,这就是衍射。
1678年,荷兰物理学家惠更斯(Christiaan Huygens)提出,波面上的每一点都可以看作是发射次级波的波源,分别发射球面次级波。在未来的某一时刻,这些次级波的包络面将成为当时的新波面,这就是惠更斯原理。惠更斯原理虽然很好地解释了光的折射、反射和双折射现象,但并不涉及光波强度和波长的分析,不能很好地解释衍射现象。
1810年杨氏双光干涉实验出现后,1815年菲涅尔(Augustin-Jean Fresnel)借助小波相干叠加对惠更斯原理进行了补充,将定性的惠更斯原理发展为具有数学证明的半定量原理,称为惠更斯-菲涅尔原理,其表达式为:
然而,该原理只是一个半定量原理,对于倾斜系数没有具体的函数表示法,比例系数的含义也不明确,因此具有一定的局限性。
因此,基尔霍夫(Gustav Kirchhoff)和萨默菲尔德(Arnold Sommerfeld)根据一般波理论推导出了衍射公式,并给出了倾斜系数和比例系数的具体形式。基尔霍夫利用格林定理求解了亥姆霍兹方程,得到了自由空间中单色光的复振幅,最后总结出基尔霍夫积分定理,具体表达了惠更斯-菲涅尔原理的概念。基尔霍夫衍射公式如下
虽然基尔霍夫衍射公式具有良好的实际效果,但基尔霍夫假设的边界条件违反了势场定理。因此,萨默菲尔德采用了另一个格林公式来克服基尔霍夫边界条件假设违反势场定理的问题,使其在理论上自洽。这就是瑞利-索梅费尔德方程(Rayleigh-Sommerfeld equation),其具体形式表示为 :
上述方程均基于菲涅耳衍射。此外,人们还发现了夫琅禾费衍射,属于远场衍射。由于夫琅禾费衍射场在理论上易于计算,具有很大的应用价值,而且在实验上也不难实现,因此受到了人们更多的关注。特别是现代变换光学中傅立叶光学的兴起,赋予了经典的夫琅禾费衍射以新的现代光学意义。而随着光学傅立叶变换的兴起,实现了从空间域到频率域的变换。光可以表示更多的内容,菲涅耳衍射中的光分布也得到了更详细的分析。
3)基于Rayleigh-Sommerfeld方程的实现方法
任何障碍物都能引起光的衍射,但只有当障碍物或孔的尺寸小于或类似于光的波长时,才能观察到明显的衍射现象。
衍射会在小孔径处产生许多小波。这些小波到达观察屏时相互叠加。在叠加过程中,相互削弱的程度有规律地变轻或变重,从而形成明暗条纹。事实上,衍射是无限连续小波的相干叠加,在数学上表现为一个积分问题。因此,可以利用光衍射现象来设计光神经网络的线性运算,实现神经网络中的线性乘法运算和求和运算。
根据衍射理论的Rayleigh-Sommerfeld方程,我们可以将给定衍射层的每个神经元视为由光学模型组成的二次波源:这也是许多衍射网络架构的基本原理。
利用光衍射实现线性运算的光学神经网络。(a)深度衍射神经网络D2NN示意图。(b)衍射光栅网络系统。(c)元表面实现光学逻辑运算
总之,基于Rayleigh-Sommerfeld方程的D2NN能够以接近光速的速度完成传统计算机神经网络所能实现的各种复杂功能,而且不消耗能量。它为利用基于人工智能的无源元件快速分析数据、图像和物体分类带来了新的机遇,从而实现全光学图像分析、特征检测和物体分类。
例如,使用该技术的无人驾驶汽车可以立即对停车标志做出反应。只要接收到路牌衍射的光线,D2NN就能读取路牌信息;该技术还可用于对大量目标进行分类,例如在数百万个细胞样本中寻找疾病迹象。
此外,利用D2NN执行任务的新型相机设计和光学元件可以被动地应用于医疗技术、机器人、安防以及任何需要图像和视频数据的应用中。例如,全光衍射神经网络可用于构建全息图像,通过三维打印以极低的成本实现“太赫兹”成像,高速重建高质量图像。
4)基于傅立叶变换的实现
光的傅立叶变换也是衍射大家族中的一员,它是从弗劳恩霍夫衍射发展而来的,由于它的一些特殊性质,如卷积定理,在现代光学中发挥着极其重要的作用。
基于傅立叶光学,光学元件的傅立叶透镜可以实现傅立叶变换,完成时域和频域的转换。根据卷积定理,空间域中两个二维连续函数的卷积可以通过它们对应的两个傅里叶变换乘积的逆变换得到。相反,频域中的卷积可以通过空间域中乘积的傅里叶变换得到。因此,乘法运算可以通过频域卷积,然后通过逆傅里叶变换来完成。
不仅如此,透镜最简单、最基本的功能之一就是汇聚光束,这在一定程度上类似于求和运算。因此,我们可以利用透镜波的傅里叶变换和光波会聚叠加功能来实现光神经网络的线性乘法功能和求和功能。
通过光的傅立叶变换实现线性操作的光神经网络。(a)光卷积操作由4f系统实现;(b)光神经元在AONN中的实验实现。(c)AONN的线性操作系统
5)通过光干涉实现线性操作
当具有相同频率、相同振动方向和固定相位差的多束光叠加在一定空间时,会出现光强分布不同于多束光原始强度之和的现象,这就是干涉。
干涉和衍射在本质上是相同的,都是波的叠加,明暗的空间分布并不均匀;但二者在形成条件、分布规律和数学处理方法上存在差异。衍射是无数小元素振幅的叠加,通过积分计算得出。而干涉是有限数量光束的叠加,通过求和计算。可以说,衍射是一种复杂的干涉,事实上干涉和衍射往往是相辅相成的。干涉和衍射都可以实现线性求和。
利用干涉原理实现神经网络的线性运行。(a)相干纳米光子电路。(b)神经网络的每一层都由光干涉单元OIU和光非线性单元ONU组成
上图显示了一种新型全光神经网络的光子芯片系统。光子芯片中光束的计算方法类似于干涉的基本原理,而线性运算则是由56个可编程马赫-泽恩德干涉仪(MZI)组成的级联阵列实现的。这种新方法使用多光束传播,并利用波的相互作用产生干涉图案,从而传递所需的操作结果。
原则上,采用这种结构的光学芯片可以运行传统的人工智能算法,速度比传统的电子芯片快得多,而能量却不到后者的千分之一。
6)光的散射实现线性运行
当光线遇到障碍物或孔洞时,就会发生衍射;当多束光线相遇时,就会发生干涉;如果光线入射到不透明的表面或随机介质上,就会被微小的颗粒从各方面反射回来,这就是所谓的散射,是科学家在20世纪60年代初首次发现的。
所谓散射,就是光强的空间分布、偏振态或频率在传播介质中分子或原子的作用下发生改变的现象。散射介质是引起散射现象的传播介质。
利用散射实现线性运行的光神经网络。(a)由活性肿瘤细胞构建的深度ONN;(b)纳米光子神经介质NNM
事实上,无论是衍射网络的衍射调制层,还是肿瘤细胞的散射ONN,它们的网络都是分层的。在以往的研究中,研究人员发现神经网络需要适当的层数来完成特定的任务,这样才能达到低损耗、高精度和良好的性能。如果网络层数太少,其训练推理能力达不到预期效果;如果层数太多,则容易出现梯度下降和过拟合问题,导致效果不佳,训练时间极长。
当然,在光子神经网络中,由于任务是以光速完成的,我们希望在保证实验效果的前提下,层数越多越好,这样才能训练出更好的网络,得到更准确的结果。因此,可以有这样一个假设:存在一个无限层数的光神经网络。
7)波分复用(WDM)实现线性运行
利用衍射原理实现光的线性工作,光信号在空气中传播。特定的传输介质(如散射介质)也可用于信号传输,或采用光纤,其传输带宽宽、传输损耗低、抗干扰性强、重量轻、成本低,在光传输中具有明显的优势。
在光纤传输中,目前通常依靠波分复用技术。波分复用技术可以有效提高传输容量,实现光的分离与组成。因此,光纤可用于海量数据的计算。
2012年,帕戈(Yvan Paquot)等人成功构建了基于光纤系统的光电混合串行递归神经网络,信号由任意波形发生器(AWG)注入,通过放大器和调制器对光进行调制。中间的存储层由可变光衰减器、延迟线、反馈光电二极管、混频器、放大器和马赫-泽恩(Mach-Zehnder)调制器组成。该网络可实现通信信道的均衡,是光子神经网络在通信领域的场景拓展。
同年,F. Duport等人也利用光纤系统构建了全光循环神经网络,采用光纤延迟切换单个非线性节点进行离线训练。除了直接利用延迟线获得延迟函数外,微环阵列和多模干扰分离器阵列等设备也能实现延迟。同时,采用多级或更复杂的时分复用,可大大提高信息处理速度,获得更好的信息处理效果。
利用光纤实现的具有储层计算功能的神经网络。(a)光存储计算。(b)全光存储计算。(c, d, e)分别描述了储层计算的原理,以及基于光纤通信系统构建的神经元和神经网络的结构。(f)基于时域拉伸的串行电光神经网络。
总之,无论是光波传输还是通信,光纤都是未来非常有潜力的发展方向。目前,光纤在波分复用技术、掺铒光纤放大器EDFA等宽带放大器技术、色散补偿技术、孤子波分复用传输技术等方面都有非常成熟的表现。在光网络方面,传统的光网络已经实现了节点间的全光化,但网络节点上仍然使用电气设备,这限制了其发展。
以光节点取代电节点的全光网络将是未来光纤的重要发展方向。在5G时代,如何将光纤与光网络相结合,实现真正的全光网络,是一项可以深入研究的工程技术。
值得一提的是,在神经网络中,波分复用技术的另一个典型应用是全光尖峰神经网络,在这一领域也有一些科研进展,本文不详细列举。
利用波分复用原理实现的光尖峰神经网络。(a)第一个光子神经网络的结构。(b)石墨烯尖峰神经元。(c)带有GST的双极积分发射神经元。(d)基于波分复用原理,由PCM和MRR阵列实现的全光尖峰神经突触网络结构。
神经网络中仅有线性是不够的,它还需要处理非线性激活函数,类似于大脑神经系统中突触的功能。非线性函数可以加快网络的收敛速度,提高识别准确率,是神经网络不可或缺的一部分。没有它,无论网络层有多少,都可以归结为庞大的线性运算,然而大多数问题都是非线性的。
激活函数的引入为神经元提供了非线性因子,使得神经网络可以逼近任何非线性函数,从而使神经网络可以应用于许多非线性模型。
在电子神经网络中,我们可以使用现有的非线性激活函数,也可以定义一个函数来进行非线性运算。然而,在光子神经网络中,这却成为其发展的瓶颈;究其原因,非线性光学元件需要与大功率激光器相匹配,实现非线性功能的难度比电子器件更大,而且其实现的非线性功能具有很多非理想特性。
1967年,塞尔登(A. C. Selden)等人提出用饱和吸收体模型或电子模块来实现光子神经网络的非线性运算,但这种方法难以精确控制,需要通过光电二极管将光信号转换为电信号,从而降低了运算速度。
目前,在光子神经网络中实现非线性操作有两种方法:一种是利用电子或光电方法,另一种是利用一些特殊材料的非线性效应。
1)非线性光学效应
非线性光学效应是介质在强光作用下的非线性偏振引起的效应,它源于分子和材料的非线性偏振,表现为光对介质的作用与介质响应之间的非线性关系。
在入射光场的作用下,构成介质的原子、分子或离子的运动状态和电荷分布必须以一定的形式发生变化,从而形成电偶极子,产生电偶极矩,进而辐射出新的光波。在这个过程中,介质的电偏振强度矢量P是一个重要的物理量。P与入射光矢量E存在非线性关系:
其中,χ(1) 、χ(2) 、χ(3)分别指介质的一阶(线性)、二阶和三阶(非线性)极化率。并且,χ(1) 、χ(2) 和χ(3)依次减小。
非线性光学效应有很多种,按照电偏振强度和电场之间的关系可分为二阶、三阶和高阶非线性光学效应。当然,我们一般只研究二阶和三阶非线性光学效应。根据激光与介质的相互作用方式,即两者之间是否存在能量交换,可分为主动非线性光学效应和被动非线性光学效应;根据参数的变化,还可分为光频率转换效应、光非线性吸收、光克尔效应和自聚焦、光双稳态效应、光相位共轭效应、受激散射效应等。
2)在光子神经网络中实现非线性激活
在目前的光子神经网络研究中,我们发现有些网络中不存在光学非线性激活,或者是通过电子方式模拟的。例如,在衍射网络D2NN中,就不存在激活函数。还有一些网络利用非线性效应进行非线性激活设计。目前,饱和吸收、光学双稳态和克尔效应已被视为ONN中潜在的激活函数。
光学吸收是指当光子进入介质时,原子和分子吸收光子的能量并发生能级转换。在此过程中,如果光子的能量足够强,介质的吸收系数就会随着光强的变化而变化。这种变化可以是线性的,也可以是非线性的,即线性光吸收和非线性光吸收。非线性光学吸收的两种主要光学机制是饱和吸收、反饱和吸收和双光子吸收。
当激光入射到介质中时,介质的吸收系数会随着介质中光强的增加而减小。当输入光波的强度超过阈值时,介质的吸收特性开始变得饱和。这种非线性光学行为被称为可饱和吸收。饱和吸收是由构成介质的粒子从基态水平过渡到第一激发态水平引起的。在饱和吸收的情况下,介质的吸收系数与介质中的光强I之间的关系可表示为:
(a, b)饱和吸收的吸收系数和透射率曲线;(c)克尔型网络结构
光非线性吸收可以通过光电器件和光学方法实现。光衰减放大器、掺铒光纤放大器和半导体光放大器等光电器件的饱和可用作非线性激活。
在基于光纤通信系统的存储计算中,每个神经元都由光纤和掺铒光纤放大器两个定向耦合器组成,而掺铒光纤放大器实现了非线性功能,每个神经元都具有这样的非线性激活功能。在光学方面,可饱和吸收体,如光学染料、石墨烯、C60等,都可以用来扮演非线性激活的角色。
当光束通过光学系统时,入射光强度和透射光强度之间存在非线性关系,从而实现光开关。例如,光学限制、光学双稳态、各种干涉开关等。在电子学中,双稳态是指在输入相同电信号的情况下,具有两个不同电阻值的单元电路。在光子学中,双稳态是指光学元件在入射光强度相同的情况下,具有两种不同水平的透射率,这就是光学双稳态。它对于理解光学信息的存储、运行和逻辑处理具有重要意义。
在非线性光学系统中,当输入光强较小时,系统的输出光强也较小。当输入光强增加到某个临界光强值时,系统的输出光强就会跳到某个高光强状态,就像打开了开关一样。之后,如果输入光强进一步降低,系统将不再回到原来临界值的低光强状态,而是会出现另一个较低光强的临界值,使系统从高光强状态跃迁到低光强状态。在这个过程中,光学系统的输入输出传递关系中出现了“滞后”现象,类似于电磁学中的滞后环。
光双稳态设备可用于高速光通信、光图像处理、光存储、光限幅器和光逻辑元件。特别是由半导体材料制成的光双稳态器件,具有体积小、功耗低、开关时间短(10^-12 秒)等特点,未来很可能成为光计算机的逻辑元件。光学双稳态因其巨大的潜在应用价值而成为一个非常活跃的研究领域。
克尔效应是三阶非线性效应。在电场作用下,沿平行和垂直于电场方向的偏振光波的折射率n//和n⊥在介质中会发生不同的变化,它们之间的差值Δn与电场的二次方幂成正比,从而产生诱导双折射。一般来说,外加电场是直流电场或低频交变电场。如果光/光频电场取代外加电场,当光线足够强时,也会出现同样的现象。此时,Δn与作用在介质中的激光束强度成正比,其中Δn为非线性相移,称为光学克尔效应。如果需要优化的参数是相位,则可以利用光克尔效应实现非线性激活。
考虑到克尔非线性材料的快速响应和双光子吸收的三阶非线性光学效应,研究人员将克尔效应与双光子吸收相结合,建立了一种非线性机制,并将其与InGaAsP环形谐振器结合使用,实现了全光存储计算。
ONN是ENN的替代品,具有两个明显的优势。
首先,ANN所依赖的矩阵乘法在ONN中可以以光速进行,检测速率超过50GHz;其次,训练后的ONN是无源的,可以用最小的功耗实现光信号的计算。
目前已有大量不同类型ONN的报道,包括基于衍射光学和自由空间光学的ONN、基于干涉光学和尖峰放电突触机制的集成光子电路,甚至还有利用波分复用原理进行储库计算的神经网络。
在衍射神经网络的研究中,它很好地利用了光的衍射现象,实现了各层神经元之间的充分连接,从而使模型的学习能力更强。但他们的研究缺少一个重要部分,那就是非线性激活,研究人员还提出他们的研究过程不涉及非线性激活函数。未来,我们可以尝试实现这种光学衍射神经网络,并加入非线性工作,比如使用光折射晶体和磁光陷阱等非线性光学介质,或者使用现有的已经研究过的非线性激活函数,通过实验来弥补它的缺失。
除此之外,这种网络和基于傅立叶变换的ONN都属于自由空间连接网络。由于存在一些重型光学元件,如衍射元件和透镜,因此对大量神经元进行缩放和扩展具有挑战性。基于散射的神经网络是一种值得研究的神经网络。由于散射的无序性,光可能从各个方向散射。因此,光通过散射介质相当于多次计算,这很可能超越以往的分层前馈网络。而且由于纳米散射介质的特殊性,我们可以实现多种不同的实时训练。
以芯片为主流的光学神经网络,如相干纳米光子电路和尖峰网络,可以提供一种与CMOS兼容的、可扩展的方法来实现光学深度学习任务,在器件小型化和扩大网络规模方面具有巨大优势,而且它们可以在光照下工作,具有强大的计算能力和最小的资源消耗。但芯片式网络成本极其昂贵,技术要求严格,需要大量人力物力支撑。因此,尽管它有着极好的发展前景,但仍有技术难题需要攻克。
非线性运算是神经网络表达能力强的根本原因,它能使神经网络学习输入和输出之间复杂的映射关系,加快网络的收敛速度,提高识别精度。
它是神经网络不可或缺的组成部分。目前已经出现了石墨烯、PCM、EIT等优秀的非线性激活剂,但在光域实现非线性功能还面临着巨大的挑战:首先,光非线性相对较弱,其产生一般需要很高的光功率,大大增加了能耗。同时,由于光功率过高,系统中的其他光学设备也会受到损坏。其次,光非线性需要与工作带宽相平衡,ONN的信息处理能力将受到限制。此外,光路中的许多元件之间要保持一致的谐振响应,这就需要额外的控制电路来校准每个元件。
第三,在光子人工智能芯片的架构中,非线性激活函数的灵活性较高,光非线性效应难以控制。在非线性器件的制造过程中,响应趋于稳定,无法满足灵活性的需求。同时,非线性光学单元的芯片集成在工艺兼容性和器件一致性方面也存在诸多问题。综上所述,如何实现低功耗、高速度、易实现、表现形式丰富的光学非线性激活功能,是该领域技术人员亟待解决的技术难题。
除了在线性运算和非线性激活方面寻求突破,我们还可以把精力放在神经网络的训练上。目前,很多网络都是在计算机上完成训练过程,然后在光学系统中完成识别和分类任务,这样的方法难免针对性太强。因此,寻找一种能在光学模式下训练并实现实时训练的训练方法就显得极为重要。相干纳米光子电路实现了前向传播可编程训练,同时还提出了一种高效的局部训练方法。纳米散射介质的训练也是一个很好的例子。它可以通过控制电场来改变材料的介电常数,从而控制内部掺杂剂的分布,最终达到稳定的效果。此外,根据任务或目标的不同,还可以多次重复训练。
当然,ONN的成功实现离不开与其他领域技术的结合。例如,光栅衍射层的刻蚀需要半导体加工技术,芯片上搭载的相干纳米光子电路、尖峰网络和纳米神经介质也需要硅光子集成技术。甚至与超材料、散射成像等领域也有合作。不仅如此,要实现非线性激活,还需要具备与化学和材料相关的知识储备。
总之,作为光子技术和人工智能技术的交叉学科产物,光子神经网络可以结合光子技术和人工智能的优势,构建高速、低功耗、大带宽的网络结构,突破传统电子神经网络的瓶颈。然而,光子神经网络仍需克服实时训练、非线性激活函数的实现、规模和应用扩展等问题。相信在不久的将来,光子神经网络能更好地发挥光电技术与人工智能技术结合带来的优势,从而更好地构建绿色智能世界。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)