机器学习漫谈：深度学习的辉煌人工智能学家

机器学习漫谈：深度学习的辉煌
来源：人工智能学家 2021年04月13日

来源：王宏琳科学网博客

如今，当有人提到人工智能引起社会变革潜力时，他们很可能是在谈论机器学习中的人工神经网络。当一篇文章谈人工神经网络突破性进展时，作者很可能指的是深度学习。

人工神经网络是一种非线性统计建模工具，可以用于发现输入和输出之间的关系，或在大型数据库中发现模式。人工神经网络已应用于统计模型开发、自适应控制系统、数据挖掘模式识别和不确定性下的决策。

深度学习是基于人工神经网络和表示学习的一系列机器学习方法的一部分。学习可以是有监督的、半监督的或无监督的，甚至强化学习的。

【深度学习有别于传统机器学习】

有人称，“实际上，深度学习是一种称为神经网络的人工智能方法的新名称，这种方法已经流行了70多年了”。但是，这样的说法并不准确。深度学习有别于传统机器学习。这里的“传统机器学习”，是指20世纪普通的神经网络，或浅层神经网络。

的确，计算机与大脑的关系，曾经吸引了20世纪40年代计算机先驱的关注。例如，1945年6月，约翰·冯·诺伊曼（John von Neumann）在《EDVAC报告草稿》首次描述现代计算的关键体系结构概念时，就使用了“memory（记忆）”，“organ（器官）”和“neuron（神经元）”等生物学术语。冯·诺伊曼生前还撰写《计算机与人脑》未完成稿，从数学的角度解析了计算机与人脑神经系统的关系。又如，1943年，沃伦·麦卡洛克（Warren McCullough）和沃尔特·皮茨（Walter Pitts）首次提出神经网络，他们的神经元模型，能够实现布尔逻辑语句。

第一次重大的神经网络突破，出现在20世纪60年代中期，苏联数学家亚历克赛·伊瓦克年科（Alexey Ivakhnenko）在他的助手拉帕（V.G.Lapa）的帮助下创建了小型但功能较强的神经网络，采用有监督深度前馈多层感知器的学习算法。而单层感知机是20世纪50年代罗森布拉特发明的。

上世纪80年代初，约翰·霍普菲尔德（John Hopfield）的循环神经网络（recurrent neural networks）引起了轰动，紧接着特里·塞伊诺夫斯基（Terry Sejnowski）的程序NetTalk可以发音英语单词。

2006年，卡内基梅隆大学教授、计算机科学家杰弗里·辛顿使用了“深度学习”这个词，此后，“深度学习”术语很快广泛流行。虽然，这个术语并非辛顿第一个使用的，早在1986年，R.德克特（R. Dechter）的一篇论文就将“深度学习”一词引入机器学习。2000年，艾森伯格（Aizenberg）等人首次将其引入人工神经网络。

21世纪的深度学习与传统神经网络区别在哪里呢？

首先，人工神经网络包含输入层和输出层之间的隐藏层。传统的神经网络只包含一个或几个隐藏层。深度学习是一个非常大的神经网络，包含多得多的隐藏层（通常为150个），它们可以存储和处理更多信息。这是深度学习有别于传统神经网络的最重要的一点。因此，名称“深层”用于此类网络。

其次，深度学习不需要手工提取特征，而直接将图像作为输入。这是深度学习有别于传统神经网络的另一点。图1描述了在机器学习和深度学习中识别对象所遵循的过程。

第三，深度学习需要高性能的GPU和大量数据。特征提取和分类是通过称为卷积神经网络（CNN）的深度学习算法进行的。CNN负责特征提取以及基于多个图像的分类。当数据量增加时，深度学习算法的性能也会提高。相反，当数据量增加时，传统学习算法的性能会降低。

图1 机器学习与深度学习

在机器学习中，需要提供给算法更多的信息（例如，通过执行特征提取）来做出准确的预测。在深度学习中，由于采用了深度人工神经网络的结构，算法可以通过自身的数据处理学习如何做出准确的预测。表1更详细地比较了这两种技术：

表1 深度学习与传统机器学习比对

	传统机器学习	深度学习
隐藏层数目	一个或少数几个隐藏层。	非常多的隐藏层。
数据点数量	可以使用少量数据进行预测。	需要使用大量的训练数据进行预测。
硬件依赖性	可以在低端机器上工作。它不需要大量的计算能力。	依赖高端机器。它执行大量的矩阵乘法运算。GPU可以有效地优化这些操作。
特征化过程	需要用户参与。	从数据中自动学习特征。
执行时间	训练所需时间相对较少，从几秒钟到几个小时不等。	由于深度学习算法涉及多个层次，因此通常需要很长时间进行训练。
输出	输出通常是一个数值，如分数或分类。	输出可以有多种格式，如文本、乐谱或声音。

【深度学习的三教父】

约书亚·本吉奥（Yoshia Bengio，出生1964.3.5）是加拿大的计算机科学家，最著名的是他在人工神经网络和深度学习方面的工作。他是蒙特利尔大学计算机科学与运筹学系的教授，并且是蒙特利尔学习算法研究所的科学主任。

扬·勒村（Yann LeCun，出生1960.7.8）是一位法国计算机科学家，主要从事机器学习，计算机视觉，移动机器人和计算神经科学领域的研究。他是纽约大学库兰特数学科学研究所的银教授，并且是Facebook副总裁兼首席AI科学家。

杰弗里·辛顿（Geoffrey Everest Hinton，出生1947.12.6），是英国和加拿大认知心理学家和计算机科学家，最著名的是他在人工神经网络方面的工作。自2013年以来，他将在谷歌和多伦多大学工作的时间一分为二。2017年，他共同创立并成为多伦向量研究所（Vector Institute，人工智能研究机构）的首席科学顾问。

图2 勒村（左）和辛顿（中）和本吉奥（右），

2018年图灵奖授予了三位研究人员，他们为当前的人工智能繁荣奠定了基础。本吉奥，勒村和辛顿有时被称为“ AI的教父”，因其开发深度学习领域的工作而获奖。这三人在20世纪90年代和21世纪00年代开发的技术，在计算机视觉和语音识别等任务上实现了重大突破。他们的工作支持了从无人驾驶汽车到自动医疗诊断的AI技术的发展。

早在1970年代中期，“ AI寒冬”减少了对人工智能研究的资金投入和热情。但杰弗里·辛顿却坚守在神经网络研究的领域：模拟神经节点网络的发展，以模仿人类思想的能力。1986年，辛顿和其他几位研究人员，通过证明不止一小部分神经网络可以通过反向传播进行训练，帮助神经网络用于改进形状识别和单词预测。2012年，杰弗里·辛顿与他的学生亚历克斯·克里泽夫斯基（Alex Krizhevsky，出生于乌克兰，在加拿大长大）、伊利亚·萨茨凯（Ilya Sutskever）一起，改进了卷积神经网络，共同开发的一个程序，大大超越了ImageNet的所有其他参赛者，这是一项涉及上千种不同对象类型的图像识别竞赛。辛顿团队在一个“6000万个参数和65万个神经元”的网络（由“5个卷积层，其中一些层后面是最大池化层”组成的）中使用图形处理器芯片。“卷积层”是勒村最初设想的一种方法，辛顿的团队对此进行了重大改进。辛顿长期以来还坚持他对“无监督”训练系统潜力的信念，在这种系统中，学习算法试图在不提供大量标记示例的情况下识别特征。辛顿认为，这些无监督学习方法不仅有用，而且使我们更接近于了解人脑所使用的学习机制。

1988年，雅恩·勒村开发了一种生物启发的图像识别模型——卷积神经网络，并将其应用于光学字符识别。勒村提出了一个早期版本的反向传播算法，并基于变分原理对其进行了清晰的推导。1998年开发了LeNet5，并制作了被杰弗里·辛顿称为“机器学习界的果蝇”的经典数据集MNIST。勒村于2003年离开工业研究，在纽约大学的库兰特数学科学研究所（Courant Institute of Mathematical Institute）担任计算机科学教授，这是美国应用数学研究的领先中心。它在科学计算中有很强的地位，尤其侧重于机器学习。在纽约大学，勒村在计算和生物学习实验室，继续从事机器学习算法和计算机视觉应用的研究。勒村保持了他对建造的热爱，包括建造飞机、电子乐器和机器人的兴趣爱好。从2013年12月起，他被Facebook聘用从事人工智能研究，现在是Facebook的首席AI科学家。

2000年，约书亚·本吉奥撰写了一篇里程碑式的论文《神经概率语言模型》（参考资料[2]），对自然语言处理任务（包括语言翻译、问答和视觉问答）产生了巨大而持久的影响。自2010年以来，本吉奥关于生成性深度学习的论文，特别是与他的博士生伊恩·古德费洛（Ian Goodfellow）共同开发的生成性对抗网络（GAN），在计算机视觉和计算机图形学领域引发了一场革命。本吉奥本人曾与他人共同创立了几家初创公司，其中最著名的是2016年的Element AI，该公司为深度学习技术开发工业应用程序。2017年约书亚·本吉奥和伊恩·古德费洛、亚伦·库维尔出版了《深度学习》一书，是深度学习领域奠基性教材，又名“花书”，被誉为深度学习的“圣经”。

【21世纪10年代深度学习技术突破】

以物体识别为标志，从传统机器学习到深度学习的转变，大约发生在21世纪10年代初。但在2010年之前几年，已经已经为此转变做了准备，包括算法（“深度学习”）、建立图像数据库（“ImageNet”）和提升算力（“GPU”）。

大约在2016年之后，深度学习显示出令人印象深刻的结果，首先是在语音识别，然后是计算机视觉，最近是在自然语言处理方面。由此产生的算法，在学术和工业应用领域，引发了一场深度学习革命。

以下简单回顾发展历程。

2006年，杰弗里·辛顿等人说。发表了一篇论文（参考资料[1]），展示了如何训练一个能够以最先进的精度识别手写数字的深度神经网络（>98%）。他们称这种技术称为“深度学习”。深度神经网络是大脑皮层一个非常简化的模型，由一叠人工神经元层组成。

2008年，吴恩达（Andrew NG）在斯坦福的研究小组开始提倡使用GPU来训练深层神经网络，以将训练时间缩短数倍。这为在海量数据上进行有效的训练带来了深度学习领域的实用性。

2009年，斯坦福大学的人工智能教授李飞飞（Fei Fei Li）推出了ImageNet。李飞飞是一位华裔美国计算机科学家。ImageNet项目是一个大型可视化数据库，设计用于视觉对象识别软件的研究。超过1400万张图片已经被该项目手工标注，包含20000多个类别。李飞飞教授说：“我们的愿景是，大数据将改变机器学习的工作方式。数据驱动学习。”

图3 李飞飞

2011年，约舒亚·本吉奥等在他们的论文“深度稀疏整流神经网络”中表明，ReLU激活函数可以避免消失梯度问题。这意味着，除了GPU，深度学习社区还有另一个工具，来避免深度神经网络训练时间过长和不切实际的问题。

2012年，多伦多大学教授杰弗里·辛顿和他的学生亚历克斯·克里热夫斯基（Alex Krizhevsky）以及另外一个学生，建立了一个名为AlexNet的计算机视觉神经网络模型，参加ImageNet的图像识别比赛。参赛者将使用他们的系统处理数以百万计的测试图像，并以尽可能高的精度识别它们。AlexNet以不到亚军一半的错误率赢得了比赛。这场胜利在全球引发了一场新的深度学习热潮。AlexNet是在多年前由雅恩·勒村建造的LeNet5（图4A）基础上，发展和改进的。AlexNet是一种用于图像分类的多层卷积神经网络（图4B）。AlexNet架构包括5个卷积层和3个完全连接层（对比而言，LeNet是一个5层的卷积神经网络模型，它有两个卷积层和3个全连接层）。

(A)

(B)

图4 LeNet-5(A)和AlexNet的计算机视觉神经网络模型(B)

2012年，Google Brain发布了一个被称为“猫实验”的不寻常项目的结果。该项目探索了“无监督学习”的困难。猫实验使用了分布在一个由16000台电脑组成的网络，通过观看YouTube视频中的1000万张“未标记”的图片，训练自己识别猫。在训练结束时，发现最高层的一个神经元对猫的图像有强烈的反应。该项目的创始人吴恩达说：“我们还发现了一种对人脸反应非常强烈的神经元。”。

2014年，生成型对抗性神经网络也称为GAN，是由伊恩·古德费洛（Ian Goodfellow）创建的。GANs凭借其合成真实数据的能力，在时尚、艺术、科学等领域开启了一扇全新的深度学习应用之门。

2016年，DeepMind的深度强化学习模型AlphaGo在复杂的围棋游戏中击败了人类冠军。

2019年，本吉奥、勒村和辛顿因其在深度学习和人工智能领域的巨大贡献,获得2018年度图灵奖。

2020年，OpenAI发布GPT-3，这是一种具有1,750亿个参数的自然语言深度学习模型。同年，DeepMind公司开发的人工智能程序AlphaFold2预测蛋白质结构堪比实验室水平。

【结语】

20世纪探索感知机和人工神经网络的科学家，都是基于这样的想法，即类似的网络可能像人的大脑一样，能够学习识别物体或执行其他任务。深度学习在21世纪10年代取得了辉煌的成就，成为驱动人工智能繁荣的动力。深度学习的成功已经用于在照片中识别物体或分类，自动驾驶汽车，游戏，自动机器翻译，图像字幕生成，文本生成，不同化学结构的毒性检测，预测蛋白质的 3D 结构形状等。深度学习已经变成了一种颠覆性的技术。总有一天，无人驾驶汽车会比你更了解道路，驾驶技能更高；深入的学习网络会诊断你的疾病。

“漫谈”的四篇博客（人工智能的第一项工作、感知机的兴衰、神经网络的复苏和深度学习的辉煌），回顾了神经网络和深度学习的从20世纪40年代至今的发展的若干重要事件，可以看出：（1）多学科协同研究很重要。（2）对新技术不要仓促否定，也不要夸张宣传。（3）科学家的坚持不懈的努力，造就了今天深度学习的辉煌和人工智能的繁荣。

深度学习的繁荣，也反映在出版有许多有关深度学习的图书，特别是有关深度学习编程的工具箱，对进一步学习提供很多便利（例如，[3]，[4]和[5]）。

参考资料：

[1] Geoffrey E. Hinton et al., “A Fast Learning Algorithm for Deep Belief Nets,” Neural Computation 18 (2006): 1527–1554

[2] Yoshua Bengio, Rejean Ducharme and Pascal Vincent . A Neural Probabilistic Language Model . NIPS'2000, 932-938. MIT Press

[3] Ivan Vasilev, Daniel Slater, Gianmario Spacagna, Peter Roelants, Valentino Zocca. Python Deep Learning. 2nd Edition. Packt. 2019

[4] Aurélien Géron. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition. Oreilly. 2019

[5] Pramod Singh, Avinash Manure. Learn TensorFlow 2.0: Implement Machine Learning And Deep Learning Models With Python. Apress. 2020

链接地址：//blog.sciencenet.cn/blog-3005681-1281688.html

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

科技

线下展会，市民畅享科技大餐

　　　　5月28日，是2021中国国际大数据产业博览会线下展最后一天，也是免费向市民开放的公众日。趁此机会，记者继续带您探秘国际综合馆（W1馆）、数字应用馆（W2馆）、前沿技术馆（E1馆）、智慧产业馆（E2馆）4...

贵阳晚报 2021年05月29日
为何新药研发、基因测序、卫星遥感的发展提速都需要它?

人类第一次完整全基因组的测序花了13年，在新技术的加持下，这个时间已经降低到1天以内；没有这项新技术加持，电影《阿凡达》的渲染可能需要上万年；这项新技术还让新药的研发周期大幅缩短，让卫星遥感定位精度...

华为 2021年05月29日
大型金属3D打印厂商钢研极光亮相TCT，展示强大的生产服务能力

2021亚洲3D打印、增材制造展览会 (TCT Asia)于2021年5月26日-28日在国家会展中心（上海）7.1馆隆重举办。作为官方战略合作媒体，南极熊将会全程现场报道（地址https://www.nanjixiong.com/foru

南极熊3D打印 2021年05月29日
3D打印成果展示

　　随着科学技术的发展，生产完成了从工厂业手工向机器大工业的过渡，从而改变了人们生活与工作方式。在日新月异的信息化、智能化浪潮中，人们个性化的需求意见日渐增长。未来的产业将是生产那些个性化的产品，...

科幻 2021年05月29日
美国国家情报委员会《全球趋势2040——竞争更激烈的世界》报告摘译

2021年3月，美国国家情报委员会（NIC）发布了每四年一度的全球趋势预测报告《全球趋势2040——竞争更激烈的世界》。NIC是美国最高层级的战略情报机构，该委员会的成员均为来自政府、学术界和私营部门的高级专家...

全球技术地图 2021年05月29日
数字让监管更加智慧上交所成功举办首届全行业技术大会

　　5月28日，上交所成功举办主题为“数字赋能，守正创新”的首届全行业技术大会。中国证监会副主席赵争平出席大会并致辞指出，证监会高度重视资本市场科技化转型与发展，确定了“数字让监管更加智慧”的愿景。...

上海证券报 2021年05月29日
湾区智行||中科创达赵鸿飞：汽车“新物种”需要共通的操作系统|中国汽车报

“我是谁？我来自哪里？我要到哪里去？”这是哲学史上永恒的三大命题，同样也是我们甚至是企业需要不断思考的问题。此次采访对象——中科创达软件股份有限公司就是一家勤于思考、擅于思考的企业。这家企业在不断...

中国汽车报 2021年05月29日
广电总局表彰虚拟现实视频、超高清视频等5类96个优秀项目!

广电总局共评选出互动视频、沉浸式视频、虚拟现实视频、云游戏、超高清视频等5类96个优秀项目，分获一、二、三等奖和优秀奖，包括《中央广播电视总台5G+VR融合制播系统——春节联欢晚会 (2017- 2021)节目VR制作...

广电头条 2021年05月29日
占据市场最新赛道，“中国制造”机器人迎来爆发期

【环球时报记者邢晓婧杨沙沙】配餐机器人、迎宾机器人、扫地机器人……不知不觉间，中国老百姓对出现在餐馆、医院、火车站、养老院等场景的机器人逐渐习以为常，甚至家中也出现扫地、娱乐等家用机器人。有统计...

环球网 2021年05月29日
最受关注展项出炉，2021年北京科技周闭幕不落幕!

5月28日下午，2021年北京科技周闭幕式在中关村国家自主创新示范区展示中心举行。北京市科委、中关村管委会相关负责人介绍了本届北京科技周举办情况以及最受关注的展项。市科委、中关村管委会二级巡视员王建新出...

科普北京 2021年05月29日
魔高一尺，道高一丈：上交所VPN攻防札记

本文选自《交易技术前沿》总第四十二期文章（2020年12月）谢毅 / 上海证券交易所 yxie@sse.com.cn相晓辉 / 上海证券交易所 xhxiang@sse.com.cn虚拟专用网络(以下简称“VPN”)系统、互联网业务系统、外网

Android编程精选 2021年05月29日
绿色召集令——聚力创赢，共赴绿色能源新征程!

申耀的科技观察读懂科技，赢取未来！申耀的科技观察，由科技与汽车跨界自媒体人申斯基创办，18年企业级科技媒体工作经验，专注企业数字化、产业智能化、智慧城市、汽车科技内容的观察和思考。

申耀的科技观察 2021年05月29日
汉朔科技和微软(中国)联合推动 IoT+AI 赋能全球零售

（本文阅读时间：4分钟）2021年5月20日，全球领先的零售数字化解决方案供应商汉朔与微软（中国）在北京举行战略合作备忘录签约仪式，以进一步推动其在零售行业的全球布局和数字化战略。根据战略合作备忘录，汉朔...

微软科技 2021年05月29日
关于安全访问服务边缘(SASE)，你需要知道的事情

在企业纷纷拥抱数字业务的过程中，由于边缘计算、云服务、混合网络的逐渐兴起，使得本就漏洞百出的传统网络安全架构更加岌岌可危，而且远远无法满足企业数字业务的需要。为了应对这种情况，一个全新的模型——安...

FreeBuf 2021年05月29日
[报告]2021年中国新能源汽车行业洞察(附44页PDF文件下载)

新能源车大势将至，造车新势力差异化突围。以下为报告节选：......文│Mob研究院本报告共计：44页。如欲获取完整版PDF文件，请扫描下方二维码加入“车友圈”获取。#重磅推荐#需要批量下载和及时更新最新汽车行业...

汽车之地 2021年05月29日

1 2 3 4 5 >>

科技

公众号 • 人工智能学家

热门文章

近期更新