人工默认简史 深度学习 掀起人工默认的新高潮 2
延恩·乐存与卷积神经网络
说完辛顿传授,咱们来聊聊深度学习畛域的另一位名人,曾经追随辛顿传授作过博士后钻研的乐存。1960年,乐存出世在法国巴黎左近,父亲是航空工程师。1988年开局,乐存在驰名的贝尔试验室上班了20年。乐存目前是纽约大学永恒传授,同时是Facebook的人工默认试验室担任人。乐存传授对人工默认畛域的最外围奉献是开展和推行了卷积神经网络(Convolutional Neural Networks,CNN),卷积神经网络是深度学习中成功图像识别和言语识别的关键技术。和辛顿传授一样,乐存传授也是在人工默认和神经网络的高潮期间,常年保持科研并最终取得成功的模范。正如辛顿传授所说:“是乐存高举着火炬,冲过了最光明的时代。”
卷积神经网络是受动物人造视觉认知机制启示而来,20世纪60年代初,大卫·休伯尔(David Hunter Hubel)和托斯坦·维厄瑟尔(Torsten Nils Wiesel)经过对猫视觉皮层细胞的钻研,提出了感触野(Receptive Field)的概念。受此启示,1980年,福岛邦彦(Kunihiko Fukushima)提出了卷积神经网络的前身Neocognitron。20世纪80年代,乐存开展并完善了卷积神经网络的通常。1989年,乐存宣布了一篇驰名的论文《反向流传算法用于手写邮政编码的识别》(Backpropagation Applied to Handwritten Zip Code Recognition)。1998年,他设计了一个被称为Le Net-5的系统,一个7层的神经网络,这是第一个成功运行于数字识别疑问的卷积神经网络。在国际通用的MNIST手写体数字识别数据集上,Le Net-5可以到达凑近99.2%的正确率。这一系统起初被美国的银行宽泛用于支票上数字的识别。
乐存是一位成绩丰厚的计算机迷信巨匠,不过笔者最拜服的还是他的闲余喜好——制作飞机!在一次性IEEE组织的深度对谈中,他和C++之父比扬尼·斯特朗斯特鲁普(Bjarne Stroustrup)有一个幽默的对话。斯特朗斯特鲁普问:“你曾经做过一些十分酷的玩意儿,其中大少数能够飞起来。你如今是不是还有期间摆弄它们,还是这些乐趣曾经被你的上班压迫光了?”乐存回答:“上班里也有十分多乐趣,但有时我须要亲手发明些东西。这种习气遗传于我的父亲,他是一位航空工程师,我的父亲和哥哥也热衷于飞机制作。因此当我去法国度假的时刻,咱们就会在长达三周的期间里沉迷于制作飞机。”
卷积神经网络经过部分感触野和权值共享的方式极大缩小了神经网络须要训练的参数的个数,因此十分适宜用于构建可扩展的深度网络,用于图像、语音、视频等复杂信号的形式识别。给你一个规模上的概念,目前用作图像识别的某个比拟典型的卷积神经网络,深度可达30层,有着2万个节点,1亿0万个参数和150亿个衔接。衔接个数远远多于参数个数的要素就是权值共享,也就是很多衔接经常使用相反的参数。训练这么庞大的模型,肯定要依托少量最先进的CPU和GPU,并提供海量的训练数据。
GPU与海量训练数据
谈到GPU和海量的训练数据,可以说说咱们华人的奉献。目前少数深度学习系统,都驳回NVIDIA公司的GPU经过大规模并行计算成功训练的减速,而NVIDIA公司的联结开创人和首席口头官(Chief Executire Officer,CEO),是来自中国台湾地域的黄仁勋(Jen-Hsun Huang,见图3.4)。据黄仁勋引见,2011年,是人工默认畛域的钻研人员发现了NVIDIA公司的GPU的弱小并行运算才干。过后谷歌大脑(Google Brain)名目刚刚取得了惊人的成绩,谷歌大脑的深层神经网络系统经过观看一周的You Tube视频,自主学会了识别哪些是关于猫的视频。然而它须要经常使用谷歌一家大型数据中心内的16000个主机CPU。这些CPU的运转和散热能耗渺小,很少有人能领有这种规模的计算资源。NVIDIA及其GPU出如今人们的视线中。NVIDIA钻研院的布莱恩·卡坦扎罗(Bryan Catanzaro)与斯坦福大学吴恩达传授的团队开展协作,将GPU运行于这个名目的深度学习。理想标明,12个NVIDIA公司的GPU可以提供相当于2000个CPU的深度学习功能。尔后,纽约大学、多伦多大学以及瑞士人工默认试验室的钻研人员纷繁在GPU上减速其深度神经网络。再接上去,全环球的人工默认钻研者都开局经常使用GPU,NVIDIA公司从此开局了又一轮的高速生长。
图3.4 黄仁勋(左)与伊隆·马斯克(右)
在海量训练数据方面,1976年出世于北京的李飞飞传授(见图3.5)功无法没。李飞飞16岁时随父母移居美国,如今是斯坦福大学永恒传授,人工默认试验室与视觉试验室主任。2007年,李飞飞与普林斯顿大学的李凯传授协作,动员了Image Net方案。应用互联网,Image Net名目组下载了凑近10亿张图片,并应用像亚马逊网站的土耳其机器人(Amazon Mechanical Turk)这样的众包平台来标志这些图片。在高峰期时,Image Net名目组是亚马逊土耳其机器人这个平台上最大的雇主之一,来自环球上167个国度的凑近5万个上班者在一同上班,协助名目组挑选、排序、标志了凑近10亿张备选照片。2009年,Image Net名目降生了——这是一个含有1500万张照片的数据库,涵盖了22000种东西。这些东西是依据日常英语单词启动分类组织的,对应于大型英语常识图库Word Net的22000个同义词集。无论是在品质上还是数量上,Image Net都是一个规模绝后的数据库,同时,它被发布为互联网上的收费资源,全环球的钻研人员都可以无偿经常使用。Image Net这个名目,充沛表现了人类经过互联网成功环球协作发生的渺小力气。
随着机器学习算法的始终提升,并获取了GPU并行计算才干和海量训练数据的支持,原来深层神经网络训练方面的艰巨逐渐获取处置,“深度学习”的开展迎来了新的高潮。在2012年Image Net应战赛中的图像分类竞赛中,由辛顿传授的在校生埃里克斯·克里泽夫斯基传授成功的深度学习系统AlexNet取得了冠军,分类的Top5失误率,由原来的26%大幅降落到16%。从此,深度学习在功能上逾越了机器学习畛域的其余很多算法,运行畛域也从最后的图像识别扩展到机器学习的各个畛域,掀起了人工默认的新浪潮。
深度学习的运行
接上去咱们举几个例子,来看看深度学习在各个畛域的运行状况。首先来看计算机视觉畛域,这方面较早适用化的是光学字符识别(Optical Character Recognition,OCR)。所谓光学字符识别,就是将计算机无法了解的图片文件中的字符,比如数字、字母、汉字等,转化为计算机可以了解的文本格式。2004年,谷歌公司动员了谷歌图书名目(),经过与哈佛大学、牛津大学、斯坦福大学等大学图书馆的协作,目前曾经扫描识别了几千万本图书,并可以成功全文检索,对没有版权疑问的书籍,还提供PDF格式的文件下载。当笔者在谷歌图书中,关上哈佛大学图书馆收藏的线装古本王阳明的《传习录》,还有惠能的《六祖坛经》时,心里真是十分的感动,谷歌相当于把全环球的图书馆都搬到了每团体的电脑上,真是功德无穷。
计算机视觉另外两个抢手的运行畛域就是无人驾驶车和人脸识别。2010年,7辆车组成的谷歌无人驾驶汽车车队开局在加州路途上试行,这些车辆经常使用摄像机、雷达感应器和激光测距机来“看”交通状况,并且经常使用具体地图来为前方的路途导航,真正控制车辆的是基于深度学习的人工默认驾驶系统。2012年5月8日,在美国际华达州准许无人驾驶汽车上路3个月,经过了几十万公里的测试之后,机动车驾驶治理处为谷歌的无人驾驶汽车颁发了一张非法车牌。图3.6是谷歌无人驾驶车的设计原型。2014年,Facebook研发了Deep Face,这个深度学习系统可以识别或许核实照片中的人物,在环球威望的人脸识别评测数据集LFW中,人脸识别准确率达97.25%。
图3.6 谷歌无人驾驶车的设计原型
在不远的未来,十年以内,必需会有很多无人驾驶车开局上路行驶。到那时,除了马路上那些固定的摄像头,又会多出无人车上不可胜数的移动摄像头,配合基于深度学习的人脸识别技术和高速的通讯网络,包全社会安保、抓捕罪犯的上班兴许会获取很多的繁难,同时,一切人的隐衷也遭到极大的要挟,只能祈祷人工默认的弱小力气被善用了。
随着深度学习的极速开展,人工默认迷信家近年来在语音识别、人造言语处置、机器翻译、语音分解等与人类言语交换关系的畛域都成功了渺小的技术打破。2012年,在微软亚洲钻研院的21世纪计算大会上,微软初级副总裁理查德·拉希德(Richard Rashid)现场演示了微软开发的从英语到汉语的同声传译系统,这次演讲获取了全环球的宽泛关注,YouTube上就有超越100万次的播放量。同声传译系统,结合了语音识别、机器翻译和语音分解的最新技术,并且要求在很短的期间内高效成功。微软的同声传译系统,曾经被运行到Skype网络电话中,支持环球各地持不同言语的人们改善交换。苹果公司的Siri、谷歌公司的Google Now等自动手机上的语音助手曾经打入了很多人的日常生存,而亚马逊公司基于Alexa语音交互系统的Echo默认音箱(见图3.7)愈加凶猛,可以间接成功语音购物和语音支付,并且可以回答你包裹曾经运到了什么中央,还能播放你青睐的音乐、设置闹钟、叫外卖、叫Uber出租车,与默认开关、默认灯具衔接后,可以把你的整个家庭变成全声控的默认家居环境。
图3.7 亚马逊公司的Echo默认音箱
对天赋少年的一点倡导
当然,目前这些人工默认系统还都处于比拟初级的阶段,有时Siri或许Echo的回答会让你啼笑皆非,笔者也经常听到好友逗这些语音助手取乐的故事。等候未来有更多的卓越人士投身这一畛域,做出更默认更通兽性的系统。假设你有家有个天赋少年,笔者特意介绍一本深度学习方面的经典著述,由伊恩·古德费洛(Ian Goodfellow)、本吉奥、亚伦·库尔维尔(Aaron Courville)三位巨匠协作推出的Deep Learning(《深度学习》),这本书的作者十分自私,将这本书的内容和关系资料都放在互联网上让大家收费学习,网址是。
在本章的最后,假设要再给你家的天赋少年送上一点倡导,请准许笔者引述深度学习畛域一位巨匠本吉奥(见图3.8)与在校生的一个对话。2014年,本吉奥传授有一次性在驰名网络社区Reddit的机器学习板块加入了“Ask Me Anything”优惠,回答了机器学习喜好者许多疑问。
有一个在校生问:“我正在写本科论文,关于迷信和逻辑的哲学方面。未来我想转到计算机系读硕士,而后攻读机器学习博士学位。除了恶补数学和编程以外,您感觉像我这样的人还须要做些什么来吸引传授的眼光呢?”
本吉奥传授回答如下:
“1.浏览深度学习论文和教程,从引见性的文字开局,逐渐提高难度。记载浏览心得,活期总结所学常识。
2.把学到的算法自己成功一下,从零开局,保障你了解了其中的数学。别光照着论文里看到的伪代码复制一遍,成功一些变种。
3.用实在数据来测试这些算法,可以加入Kaggle竞赛。经过接触数据,你能学到很多。
4.把你整个环节中的心得和结果写在博客上,跟畛域内的专家咨询,问问他们能否情愿接纳你在他们的名目上远程协作,或许找一个实习。
5.找个深度学习试验室,放开。
这就是我倡导的路途图,不知道能否足够分明?”
献上笔者的祝愿,并等候在未来的某一天,可以和你家的天赋少年,或许和他/她开发的超级默认机器人相遇,兴许在这个蓝色星球的某一片秀丽山河之间,兴许在茫茫宇宙中航行的太空飞船里……