深度学习

深度学习逐渐成为人工智能领域的研究热点和主流发展方向。它蕴含了什么样的魅力可以让国家出台政策支持并且持续吸引社会关注？下文将从深度学习的历史变迁、特点、网络结构、技术类别、应用领域和面临的问题等几个角度去了解。

一、深度学习的历史与变迁

一般认为，迄今为止深度学习已经经历了三次发展浪潮：20世纪40年代到60年代，深度学习的雏形出现在控制论中；20世纪80年代到90年代，深度学习表现为联结主义；直到2006年，才以深度学习之名为众人所知。

第一次浪潮开始于20世纪40年代到60年代的控制论，随着生物学习理论的发展和第一个模型的实现（如感知机），能实现单个神经元的训练。控制论是从神经学角度出发的简单线性模型。这些模型
被设计为使用一组 n 个输入 x1,…, xn 并将它们与一个输出 y 相关联。这些模型希望学习一组权重w1,…, wn，并计算它们的输出 f(x, w) = x1w1 + … + xnwn。
这第一波神经网络研究浪潮被称为控制论。
第二次浪潮开始于 1980-1995 年间的联结主义方法，可以使用反向传播训练具有一两个隐藏层的神经网络。在 20 世纪 80 年代，神经网络研究的第二次浪潮在很大程度上是伴随一个被称为联结主义或并行分布处理潮流而出现的。联结主义是在认知科学的背景下出现的。认知科学是理解思维的跨学科途径，即它融合多个不同的分析层次。联结主义的中心思想是，当网络将大量简单的计算单元连接在一起时可以实现智能行为。这种见解同样适用于生物神经系统中的神经元，因为它和计算模型中隐藏单元起着类似的作用。
当前第三次浪潮，也就是深度学习，大约始于 2006 年并且现在在 2016 年以书的形式出现。由于算法的改进以及大量的训练样本的支持，再加上计算能力的进步，训练深层、复杂的神经网络成为可能，他们在图像语音识别等具有挑战性的问题上显示出明显的优势。此时，深度神经网络已经优于与之竞争的基于其他机器学习技术以及手工设计功能的 AI 系统。第三次浪潮已开始着眼于新的无监督学习技术和深度模型在小数据集的泛化能力，但目前更多的兴趣点仍是比较传统的监督学习算法和深度模型充分利用大型标注数据集的能力。

二、深度学习的特点

深度学习是一种深层的机器学习模型，其深度体现在对特征的多次变换上。常用的深度学习模型为多层神经网络，神经网络的每一层都会将输入进行非线性映射，通过多层非线性映射的堆叠，在深层神经网络中计算出抽象的特征来帮助分类。其含有多层网络模型，并且学习过程也是由低到高逐层映射到新的特征空间，具有层次化和分布式抽象的特点，这样可以拟合复杂的非线性函数，处理更高维度的非线性输入数据。
深度学习网络结构进行学习的特点如下：

利用无监督学习来对每一层网络进行预训练；
每次用无监督学习只训练一层，并将输出的训练结果作为其高一层的输入；
用自顶而下的监督算法去调整所有层。
三、深度学习网络结构
3.1 循环神经网络
循环神经网络（Recurrent Neural Network, RNN）是一种以序列数据为输入，在序列的演进方向进行递归且所有节点按链式连接形成闭合回路的递归神经网络。

如图3.1所示的闭合回路连接是循环神经网络的核心部分。循环神经网络它们对于序列中每个元素都执行相同的任务，输出依赖于之前的计算即循环神经网络具有记忆功能，记忆可以捕获迄今为止已经计算过的信息。
3.2 卷积神经网络
卷积神经网络（Convolutional Neural Networks, CNN）是一种既有深度结构又包含卷积计算的前馈神经网络，是深度学习的常用算法之一。卷积神经网络的组成结构如图3.2所示。
！CNN结构
3.3 深度置信技术
深度置信网络（DBN）由对生物神经网络及浅层神经网络的研究发展而来的一种概率统计模型。深度置信网络主要分成两部分。第一部分是多层玻尔兹曼感知机，用于预训练我们的网络。第二部分是前馈反向传播网络，这可以使RBM堆叠的网络更加精细化。提升模型分类性能。

系统DBN在结构上是由无监督网络和受限玻尔兹曼机堆叠组合而成，结构模型如图3.3所示。数据是自上而下进行传递的，低层的 RBM的输出结果作为高一层的RBM的输入，每个RBM都是由可见层和隐含层组成，层与层之间由权重连接，这种逐层传递的方式，使特征表达能力越来越强。
四、深度学习技术类别
根据网络模型参数的确定方法，深度学习技术可以分为监督学习技术、非监督学习技术和增强学习技术三类。其中监督深度学习技术中网络模型参数是利用带标注的训练数据对网络进行训练而得到的，非监督深度学习技术中网络模型参数的确定则无需带标注的训练数据，增强深度学习技术中网络模型参数是利用特定评分策略对网络输出进行评分后确定的。
4.1 监督深度学习技术
监督深度学习技术主要包括多层感知器、卷积神经网络和循环神经网络等。多层感知器技术是早期神经网络研究的基础性成果，也是衡量深度神经网络性能的对比参照基础；卷积神经网络包括分类网络、检测网络、分割网络、跟踪网络和轻量化网络；循环神经网络主要包括长时短期记网络和门限循环单元网络。
一般情况下，卷积神经网络均属于前馈神经网络，信息按神经元在网络中层次由浅至深地进行处理，而层次较浅的神经元参数不会受到层次较深的神经元输出的控制，即网络没有记忆，因此通常不适用于序列学习。循环神经网络引入了深层神经元输出到浅层神经元输入和状态的控制机制，使网络具有记忆功能，更适用于序列学习。由于绝大部分经典自然语言处理任务均属于序列学习的范畴，因此，循环神经网络在自然语言处理领域取得了广泛的应用。经典的循环神经网络主要包括长时短期记忆网络系和门限循环单元网络。
4.2 非监督深度学习技术
非监督深度学习技术主要包括玻尔兹曼机、自编码器和生成对抗网络等。虽然可以使用监督学习的方式训练网络，但受限玻尔兹曼机通常被视为一种早期经典的深度非监督学习技术。自编码器能够通过无监督学习，生成输入数据低维表示，可用于数据的去噪、降维和特征表示等任务。自编码器一般均是采用编码器-译码器结构，实现自监督学习，主要包括VAE、Stacked Denoising AE 和 Transforming AE 等技术。生成对抗网络是近年来非监督深度学习技术的研究热点之一，主要包括GAN、CGAN、WGAN、 EBGAN、infoGAN、BigGAN 和 SimGAN 等。生成对抗网络的主要思想是利用生成模型和分辨模型之间的竞争关系，在网络损失度量中包含利于一个模型而不利于另一模型的部分，训练过程使生成模型输出将输入噪声信号尽可能逼近信息输入，而同时提高分辨模型分类与生成模型信息输出与输入的正确性，从而达到网络整体性能的优化。
4.3 增强深度学习技术
增强深度学习技术主要包括Q学习和策略梯度学习。Q学习的核心思想是利用深度神经网络，逼近贝尔曼方程描述的递归约束关系。Q学习算法一般采用估计、决策和更新的迭代过程, 经典的估计方法有蒙特卡洛树搜索算法、动态规划算法等，基本的Q学习方法有DQN、Double DQN、Prioritized DQN 和 DRQN 等。策略梯度学习的基本方法是利用深度神经网络，实现策略的参数化，并通过梯度优化控制参数权重，选择较好的行为实现策略，常用的策略梯度有有限差分策略梯度、蒙特卡洛策略梯度、Actor- Critic 策略梯度等，主要的策略梯度学习方法有 REINFORCE、TRPO、DGP、DDGP 等。

五、深度学习技术应用

5.1 语音识别

语音识别系统长期以来，描述每个建模单元的统计概率模型的时候，大都采用的是混合高斯模型。这种模型由于估计简单，适合海量数据训练，同时有成熟的区分度训练技术支持，长期以来，一直在语音识别应用中占有垄断性地位。但是这种混合高斯模型本质上是⼀种浅层⽹络建模，不能够充分描述特征的状态空间分布。另外，GMM建模的特征维数一般是几十维，不能充分描述特征之间的相关性。最后GMM建模本质上是⼀种似然概率建模，虽然区分度训练能够模拟⼀些模式类之间的区分性，但是能⼒有限。
采用深度神经⽹络后，可以充分描述特征之间的相关性，可以把连续多帧的语⾳特征并在⼀起，构成一个高维特征。最终的深度神经⽹络可以采⽤⾼维特征训练来模拟的。由于深度神经⽹络采⽤模拟⼈脑的多层结果，可以逐级地进⾏信息特征抽取，最终形成适合模式分类的较理想特征。这种多层结构和人脑处理语⾳图像信息的时候，是有很⼤的相似性的。深度神经⽹络的建模技术能够无缝与传统的语音识别技术结合，大幅度地提升了语音识别系统的识别率。

5.2 图形识别

图像是深度学习最早尝试的应⽤领域。CNN是⼀种带有卷积结构的深度神经⽹络，通常至少有2个⾮线性可训练的卷积层和2个⾮线性的固定卷积层，又叫和1个全连接层，⼀共⾄少5个隐含层。
深度学习应用于图像识别不但⼤⼤提升了准确性，⽽且避免了⼈⼯特征抽取的时间消耗，从而大大提高了在线计算效率。可以很有把握地说，从现在开始，深度学习将取代⼈⼯特征 + 机器学习的⽅法⽽逐渐成为主流图像识别⽅法。

5.3 自然语言处理

除了语⾳和图像!深度学习的另⼀个应⽤领域问题⾃然语⾔处理。经过⼏⼗年的发展!基于统计的模型已经成为NLP的主流。
最早的深度学习用于NLP的研究工作诞生于NEC Labs America，其研究员采用embedding和多层一维卷积结构。总体上深度学习在NLP上去的成就没有在语音图像上那么令人印象深刻。

5.4 搜索广告CTR预估

传统的搜索广告的pCTR是通过机器学习模型预估得到的。提高预估pCTR的准确性，是提升搜索公司、广告主、搜索用户三方利益的最佳途径。
百度将DNN用于搜索广告以突破扁平结构的LR对模型学习与抽象特征的限制，并将特征数量级从1011将为103，从而可以被CNN正常学习。DNN在搜索广告系统中的应用还远远没到成熟，其中DNN与迁移学习的结合将可能是一个令人振奋的⽅向。使用DNN未来的搜索广告将可能借助网页搜索的结果优化特征的学习与提取；亦可能通过DNN将不同的产品线联系起来。

六、面临的问题

随着深度学习理论的进一步深入发展和应用领域的不断拓展，深度学习技术自身存在的一系列瓶颈问题也逐渐显现出来，成为了制约深度学习技术进一步突破的主要问题。

6.1 可解释性问题

深度神经网络一般包含多个隐藏层，运算单元的数量十分庞大，网络参数更是数不胜数，对参数的选取和运算单元的输出常常无法解释；新的深度神经网络还引入了各种复杂的网络结构，进一步加剧了可解释性问题的严重性。可解释性问题是深度神经网络深入发展的主要瓶颈问题之一，有理论将网络视为决策树结构，但过于复杂的结构超出了人类容易理解和分析优化的能力范畴。

6.2 网络优化问题

目前的深度神经网络主要依靠对指定的损失函数执行反向传播算法实现网络参数优化，该算法仅能针对特定的网络结构实现按梯度的优化计算。由于实际学习问题往往没有梯度最优解，算法不能保证网络参数的选择实现了全局最优化。此外，网络构预先确定，也限制了处理复杂学习问题时的性能；如将网络结构也作为可优化选项，则仅有部分搜索理论提供了参考性结果。深度神经网络的整体优化是限制深度学习技术取得突破的另一主要瓶颈问题。

6.3 数据稀缺问题

目前的监督深度学习技术需要应用领域有大量的标注数据，才能训练网络参数，衡量学习性能；非监督深度学习技术尚处于发展的起步阶段，虽然在诸如风格迁移、目标跟踪、词嵌入等领域有所突破，很多经典的监督机器学习场景任务尚不能使用非监督深度学习技术实现。为克服数据稀缺性问题，深度迁移学习、小样本深度学习技术已经成为了目前的研究热点，但距离根本性解决数据稀缺性问题尚有一段距离。

6.4 实现复杂度问题

相对大部分已经取得广泛应用的浅层机器学习技术而言，深度神经网络需要的运算复杂度高、存储量大、运算时间长，虽然在应用中不需要训练网络，但仍难于在各种低成本终端中应用。虽然已有相关轻量化深度神经网络研究技术出现，但距离全面解决深度神经网络的复杂度问题尚有一定的差距。

七、总结

总之，深度学习是机器学习的一种方法。在过去的发展中，它大量的借鉴了关于大脑、统计学和应用数学的知识。近年来，更加强大的计算机、更庞大的数据集和能够训练更深网络的技术都是的深度学习的普及性和实用性都有了极大的发展。但是随着深度学习的不断发展与应用，也逐渐暴露出一些问题，如网络结构优化、数据稀缺及实现复杂度等问题。相信经过人们的努力，人工智能技术发展必然会在现有的研究成果上更进一步。

深度学习

一、深度学习的历史与变迁

二、深度学习的特点

三、深度学习网络结构

3.1 循环神经网络

3.2 卷积神经网络

3.3 深度置信技术

四、深度学习技术类别

4.1 监督深度学习技术

4.2 非监督深度学习技术

4.3 增强深度学习技术