机器学习与人工智能(一)
“人工智能”英语里是Artificial Intelligence,所以简称“AI”。说起“AI”,大众第一想到的可能是这些东西。经常会有人问,什么时候机器人能统治世界?会不会做到这一天?其实我们非常难回答。
人工智能是什么?什么事情是需要智能的,通过机器来做就是人工智能。但是如果这句话是一位很平凡的人说的,大家可能觉得这是他的见识不够高。
但Marvin Minsky(马文·明斯基)是1969年图灵奖得主。计算机科学领域里的最高奖就是图灵奖。麻省理工学院(MIT)的计算机科学是世界上最强的。但MIT的Computer Science是由两个部分发源出来的,一个部分是“AI实验室”,Minsky是创立者之一。另一部分是Media Lab(媒体实验室),是Minsky和其他人一起合作创建的。一定意义上说,MIT的计算机科学奠基人就是Marvin Minsky。五六十年代,“神经网络”研究特别热,但是1965年,明斯基和他的合作者写了一本书。这本书出版之后,美国和苏联15年里停止了对这个领域的支持,就是因为Minsky说这个方向的发展看来不太有希望。Minsky是随便说一句话都能对科学界产生重大影响的人,他怎么会说出这么一句好像很没有技术含量的定义,这意味着这个里面有重大的困难。1982年,Minsky还说过一句话,“AI问题是整个科学曾经经历的最困难的问题之一”。
怎么去理解他的断言?首先要搞清楚什么是智能。说起智能,每一位同学都有自己的感觉,比如IQ智商测试,从今天的技术水平来看,智商测试回答的所有问题,计算机都可以回答得很好。但我们不认为今天的计算机已经具有智能。我们经常说一个人很聪明,说他记忆力很好,但是记忆力再好的人也比不上计算机。有时候还说这个人算东西很快,说明他智力很强。从这些方面来看,今天计算机的能力已经超过了一般意义上的人类。但是我们没有认为哪一个计算机系统真的具有智能了。
怎么样进一步观察智能?不同学科的人对它有不同的看法。第一位Edward Feigenbaum,他是一位图灵奖得主(1994),他代表了计算机科学家所能给出的定义。他说“如果我们能研制一个人造物,它具有总结、模仿、选择、理解和感觉能力,我们就可以认为这个人造物具有智能”。第二位是认知科学家侯世达,他写过一本非常有名的书叫《GEB》(《哥德尔、艾舍尔、巴赫》)。他说“智能中最重要的能力包括适应环境、适应偶然性事件、能分辨模糊的或矛盾的信息、在孤立的情况中找出相似性、产生新概念和思想”。文字上来说,这两个定义之间好像没有特别大的关联,但是它们有共性,能够列举出若干个行为,或者说表现是智能的,但是智能是什么说不出来。所以人工智能谈到现在,面临一个非常大的问题,给不出人工智能的定义。大家就会问,到底是做什么事,你都说不清楚,不是伪科学吗?其实可以换一个角度来做这件事。如果不能给出一个清楚的定义,但是能够给一个可操作的定义,一旦一个什么样的结果达到了,就可以说AI做出来了,这样好像也是可以接受的。
比如骑自行车,什么叫会骑自行车或会开车,很难定义。但如果通过驾照考试就认为会开车,有这个定义也行。我们要给这么一个定义,必然要讲到“图灵测试”。最近一段时间关于“图灵测试”有很多言论。这是1950年产生的思维实验,阿兰·图灵提出来的。今天计算机科学最高奖就是以他的名字命名的。他一生做了三个非常伟大的贡献,一定意义上改变了人类历史的发展。
第一个贡献是他在1936年写了一篇论文《论可计算数在判定问题中的应用》。在这篇论文的脚注里面,他提出了“图灵机”,它奠定了整个计算机科学的基础。第二个贡献是他的研究的结果对第二次世界大战发生了重要的影响。他当时领导了一个小组破译德军的密码,最后Enigma密码机被破译。破译之后,1942年以后,盟军战场上德国人要到哪去,盟军领导比德军的指挥官先知道,完全改变了战争的局势。但是他对二战的结果非常悲观,他坚信德军最后会取得胜利,所以他把所有财产全部换成白银,熔成银块,挖个坑埋起来,说以后德国人占领后,英镑没用了,可以把白银挖出来再用。结果仗打完之后,他忘记了埋的地方。他后来因吃氰化钾的毒苹果去世。有一个说法,苹果电脑上咬了一口的苹果,是在纪念图灵。第三个贡献是1950年的图灵测试。现代意义上的电子计算机,教科书说是1946年ENIAC,但其实英国做得更早。当时计算装置的能力比今天的笔记本电脑、手机要弱很多,只能干非常有限的事儿。但是那个时候已经有人开始考虑,机器这样发展下去,会不会有一天达到非常强大的智能水平。怎么来评价这件事?图灵设计了这么一个实验。
这是一个思维实验,是在脑袋里面开展的实验。有两间屋子,第一间屋子里面放一个计算机,第二间屋子里面放一个人,外面再有一个人,这个人可以提问题,里面的计算机和人都来回答。提的问题通过电传打字机和他们联系,目的是外面的人看不到里面的人或者机器的物理表现,通过物理表现是不可能看出谁是人谁是机器的。通过问很多问题之后,里面的计算机也尽量地让外面的人认为他是人,这个人也要让他认为他是人。经过很多问题之后,请外面这个人判断,里面到底哪一个是真的人。如果这个人做出判断的正确性小于30%,就可以说这个机器现在达到一定的人类的智能水平了。为什么是30%?只要理解成它比50%稍高一点就好了。50%是随机猜测。如果比50%还差,说明机器骗过了人。30%是因为这个实验起源于当时上流社会一个比较无聊的游戏。一个是男人,一个是女人,外面这个人判断谁是女人。当时人的判断准确性达到70%。只要里面的机器使得人一定程度上误以为他是人,就认为他达到了“图灵测试”,或者说通过了“图灵测试”。这个测试从直觉上来看,好像有一定道理,这也是为什么所有的人工智能教科书里面一定会谈到“图灵测试”。今天说有没有达到人工智能、人造智能物,很多人还会说到“图灵测试”。但是很多书或文章没有告诉大家的是“图灵测试”有很多反面的看法。如果假定机器真的能够通过“图灵测试”,我们能不能认为这个机器达到人类的智能水平?“图灵测试”的本质上是在从表现来评判智能。
图灵测试的另一面:能否从“表现”来评判“智能”?“图灵测试”提出来若干年之后,一位认知科学家提出了“西尔勒中文屋子”,这也是一个思维实验。这个实验是“图灵测试”的变体。放一个人在这个屋子里,外面有一个人和他交流,他通过英文提问题,让屋子里的人通过中文回答。他用中文实验,因为当时外国人都认为学中文是非常困难的一件事情。里面这个人对中文完全不懂。假设我们现在给他一个超级中文大辞典。你提出的任何问题我都可以查字典知道它的意思,并且能够把我的回答通过字典变成很合适的中文告诉你。今天我们如果把机器翻译技术做到极致,可以起到超级中文大辞典的作用。现在外面这个人判断里面这个人到底懂中文还是不懂中文,好像很难说,说整个屋子他是懂中文的,但是说这个人好像很难有人会认为他是懂中文的。这就给“图灵测试”提出了这么一个问题,就算你通过了这个测试,我们还是未必能够认为你真的就达到智能。大家可以说“西尔勒中文屋子”看起来是个思维实验,但这个可能真正不可能实现的,什么问题都能查出来。但类似的事情真正的发生过,我们可以用下棋来判断这件事情。在人类历史很长的时间里,大家一直都认为下棋是衡量一个人的智能水平非常好的指标。如果两个人都会下棋,并且投入的时间差不多,这时候谁下得更好,一定程度上表征着他的思考能力、思维能力会更强。现在有很多棋类,跳棋、中国象棋、国际象棋做得很好。但围棋做得不是太好,有很多技术上的问题,棋的难度是和它搜索的状态空间直接有关的。围棋的状态空间到今天的粗糙估计,已经超过了宇宙间存在的基本粒子的个数(10的80次方)。第一个估计是宋代沈括做的。沈括在《梦溪笔谈》里说围棋的难度叫“连书万字四十三”。但是今天的估计已经远远地超过了这个范围。很多年来把操作棋类的能力当作判断你的思考能力、思维的潜在标准,但90年代发生了重大的变化。就是“深蓝”和“更深的蓝”和卡斯帕罗夫下棋,结果下赢了。第一次比赛1996年2月是卡斯帕罗夫赢了,4﹕2。1997年5月,“更深的蓝”赢了。
今天随便问一位国际象棋棋手,他认不认为机器在下象棋方面具有智能,没有任何人会告诉你。现在所有人都知道下棋的程序,是程序运行的结果。但是回到90年代,在卡斯帕罗夫第一次和“深蓝”下完棋之后,有一个新闻采访他,他说“那一天我觉察到某种新智慧”,“尽管我认为我确实看到了一些智慧的痕迹,但那是很怪的一种,委琐而没有弹性(Trivial and non-flexible)。使我觉得我还有好几年好走”。当时下棋的时候,有一局棋出现了非常有趣的场面。国际象棋的子数是有限的,每少一个子往往都是重大损失。在有一局棋上“深蓝”下出来一步棋,是一个弃子战术,非常高明,我送给你一个子吃掉,几步之后我会再赚回来。卡斯帕罗夫就发现这个东西已经很有智慧了。但是他这个智慧和人不一样,人的话一旦达到一个水平,基本上其他的表现都在这个水平上。但机器这一步好像特别厉害。其他步好像又比较笨,他觉得这个没有弹性,这个很奇怪。
这个新闻发表之后,有好事者找了当时设计“深蓝”的许峰雄博士课题组,问这个到底是怎么下出来的。其实这个机器并没有懂什么叫弃子,只不过是算到第几步,你这一步如果吃到我了,我过后几步会吃回来。对机器来说,完全没有我这是在送给你吃的概念,只不过在按照程序执行。卡斯帕罗夫得知这件事后,再也不用“新智慧”描绘下棋的电脑了。这从一定层面上可以看出,当我们知道一个东西是怎么运作的,即使它表现出很强的能力,也没有人再会认为它是有智能的,都认为是事先设计好的。即使我们做出一个东西来,他通过了“图灵测试”,一旦知道了它内在的工作机理,还是可以说这不过就是一个程序。从这个意义上说,你就算通过了“图灵测试”,也不能真正地认为机器达到了人的智力。
能否了解人类的智能水平?我们有一个先决的假设,能够通过“图灵测试”。但退一步来想,到底是不是真的有可能通过“图灵测试”。我可以设计一个人为的陷阱,说《大英百科全书》第1783页、第178行写的是什么?如果这个电脑里面的知识库恰恰存了《大英百科全书》,它应该很快能给回答,而一般的人类是回答不出来的,所以我马上就可以判断出,回答出来的不是人。如果真的要通过“图灵测试”,这个机器不光要知道问题的答案,还要知道人的水平是怎么样,人答不出来的,我也不能答出来。
这件事情如果深入思考,就会发现这已经超越了今天数学计算机科学所能研究的一切对象的范围。我们今天研究的一切东西,从理论上通过数学的证明都是可以知道它的上下限在什么地方,它是不可能突破这一点的。要做出这样的东西,意味着不光自己有很强的能力,还要知道它的创造者的能力范围有多大,而创造者拥有的知识和能力并不是全部交给你。能不能达到这件事情,从计算机科学的角度来看,可以不去认真地考虑,更多地留给哲学家研究。
从“图灵测试”、计算机科学的一般认识来说,图灵的论文发表十多年之后,已经出现了1000多篇论文在讨论这件事,但是今天一般的认为是,“通过图灵测试对严肃的人工智能研究来说,不是一个明智的研究和发展目标”。因为这件事,第一,就算你做了强大的东西,大家还是可以抵赖,说你这个东西不是智能的。第二,这个目标本身到底能不能通得过还有待哲学家进一步思考。对研究自然科学或者工程科学的人来说,可能要做一些可行的可达的事情。
从计算机科学角度的人工智能研究到底在做什么?关于人工智能有两种不同的说法,有一种说法叫作强人工智能,他们的研究目的是希望研制出和人一样聪明,甚至比人更聪明的机器。要达到这个目标,一定要达到说人有多聪明,你有多聪明。90%以上的学者想的是弱人工智能。我们让机器做事情的时候,稍微聪明一点就好。打一个不太恰当的类比,古代看到鸟在天上飞,大家就会想我能不能做一个东西能够飞起来,后面我们做出来飞机飞上天了,研究这个领域的人起了一个很好的名字叫“空气动力学”。如果当时他们起的名字叫“人工鸟”,就和我们今天面对的是一样的,大家就会问,飞机虽然飞起来了,但是离人工鸟差得很远,第一你不会生小鸟,第二飞机的翅膀也不会扇。但是“空气动力学”杜绝了很多幻想。我们做人工智能研究,不过就是看到人做事情很聪明,我们能不能从人身上学出一点聪明的东西,让机器变得更聪明。但是很不幸,我们学科的鼻祖起的名字“人工智能”,带给了大家无穷的幻想。
这个学科到底是怎么发展起来的。作为计算机科学一个非常重要的领域,主流领域的人工智能认为他是1956年诞生的。1956年在美国达特茅斯学院开了一个会,持续了两个多月。这个会议标志着人工智能学科的诞生。会上很多人聚集在一起商讨,说这个方面的技术以后发展下去能做什么?当时大家要给这个学科起一个名字,有很多的争论,最后大家接受了John McCarthy的。现在我们把他叫作“人工智能之父”。他是1971年的图灵奖得主。McCarthy非常传奇。出生在一个共产党家庭,幼年时得到的各方面条件是很差的,自学《10万个为什么》,17岁进入加州理工学院,免修两年数学,22岁在Princeton获得博士学位,37岁创立了斯坦福大学的人工智能实验室。
McCarthy是一个科学天才。按他的贡献来说,够拿三个图灵奖。今天的计算机都是分时操作系统,很多个任务可以同时进行,一边聊天,一边写文档,一边收发E-mail,但是在那个时代,机器所有的计算资源只能被一个程序占有。McCarthy在1958年提出了一个想法,把时间分开,变成分时的,他召集一些人在麻省理工学院在1958年开始做,但1959年,他和他的领导闹矛盾离开MIT。副组长接替他继续做这件事。1960年世界上第一个分时操作系统研制完成。1990年领导完成的组长获得图灵奖。但原本的思想和设计蓝图都是从他这来的。他还提出了“递归”的概念,今天写程序的人都会用到这个概念。他和乔布斯在同一周去世。但新闻媒体宣传乔布斯的很多,提到McCarthy的很少,当时科学界很多人为McCarthy抱不平,他的贡献从整个人类历史发展来看,可能比乔布斯还要大一些。
课程简介
机器学习与人工智能是当今时代大潮流发展趋势下人们非常关注的热门问题,周志华教授用浅显的语言为不同专业背景的学生们科普了关于这两方面的相关内容。
人工智能,用马文·明斯基的话来解释,就是什么事情是需要智能的,就通过机器来做,这就是人工智能。要理解人工智能的含义,首先要明确智能是什么?周教授给出了两位比较重要的学者(Edward Feigenbaum和侯世达)的定义,让大家有了更深一层的见解。而要更好地理解智能的含义,必然要提到“图灵测试”。周教授为大家介绍了阿兰·图灵的三个伟大贡献,而第三个就是“图灵测试”实验,实验的本质是从表现上来评判智能。之后一位认知科学家提出的“西尔勒中文屋子”实验,相当于是“图灵测试”的变体。接下来,周教授详细介绍了历史上的“人棋对战”事件,指出“图灵测试”的局限性。关于人工智能,周教授提出目前存在两大派别,即强人工智能和弱人工智能。当前更多的学者是集中在后者进行研究。目前人工智能发展的主流阶段有三个,分别是推理期、知识期和学习期。而机器学习就是从人工智能的学习期发展出来的。
关于机器学习,周教授主要从定义、应用以及当前与大数据时代相结合的发展前景展开讲解。其中关于应用,他主要从信息、文化、艺术、政治等贯穿我们生活方方面面的层次进行介绍。让大家感叹机器学习无处不在。
无论是学习哪一个学科,从事哪一个领域,对机器学习方面的内容都应该多了解一些,多掌握一些,这对我们未来的发展一定是非常有好处的。
(视频拍摄于2014年)
- 人工智能是什么?
- 马文•明斯基
- 智能是什么?
- 阿兰·图灵的三大贡献
- 什么是“图灵测试”实验?
- 什么是“西尔勒中文屋子”实验?
- 棋艺超过人的机器具有智能吗?
- 如何理解人工智能的两种不同说法?
- “人工智能”学科是如何诞生的?
- 人工智能发展的第一阶段
- 赫伯特•西蒙的成就及贡献
- 人工智能发展的第二阶段
- 人工智能发展的第三阶段
- 机器学习的定义
- 机器学习是做什么的?——以“循证医学”上的应用为例
- 机器学习过程是什么样的?
- “数据挖掘”与“机器学习”的关系
- 机器学习在信息学科的应用——防火墙
- 机器学习在交叉学科的应用——生物信息学
- 机器学习在搜索引擎上的应用
- 机器学习在自动汽车驾驶上的应用
- 机器学习在文化上的应用——古文献修复
- 机器学习在艺术上的应用——画作鉴别
- 机器学习在政治上的应用——帮助奥巴马胜选
- 为什么说机器学习并非“一切皆可学”?
- 为什么说大数据时代下,机器学习显得尤为重要?
京公网安备 11010202008139号