机器学习与人工智能(二) - 中国百科网

机器学习与人工智能(二)

主讲人 周志华

周志华

南京大学计算机科学与技术系教授、博导。2003年获国家杰出青年科学基金,2006年入选教育部长江学者特聘教授。现任南京大学计算机软件新技术国家重点实验室常务副主任、机器学习与数据挖掘研究所(LAMDA)所长、人工智能教研室主任。 主要从事人工智能、机器学习、数据挖掘、模式识别等领域的研究工作。
最后更新 2021-12-28
浏览 41
最后更新 2021-12-28
浏览 41
意见反馈

      在人工智能诞生之初,我们要通过学习人的一些聪明才智,让机器聪明起来。人工智能发展的主流阶段可以分成三个阶段,第一个阶段叫作推理期,这个阶段所做的事情是希望把数学家所具有的逻辑推理能力交给机器。所有人对数学家都有一种无名的崇敬,觉得数学家太聪明了。当时大家认为因为他们有推理能力,能把很复杂的东西推理出来。如果把这个能力给机器,机器也可以聪明起来,所以第一个阶段研究的主体就是做逻辑推理。做出重要贡献的两位非常著名的学者,一位赫伯特·西蒙,1975年图灵奖得主。一位阿伦·纽厄尔,是赫伯特·西蒙的学生,他们一起获得图灵奖。

      赫伯特·西蒙是非常伟大、极其了不起的科学天才。赫伯特·西蒙的伟大程度绝不在爱因斯坦之下。他的研究跨了很多领域,几乎在所有的领域都做到了极致。1969年获得心理学会的基础贡献奖,1975年获得计算机最高的图灵奖,1978年获得诺贝尔经济学奖,1984年获得政治学的麦迪逊奖,1988年获得运筹学的冯诺依曼奖,1993年获得心理学的终身贡献奖。除了科研,他管理能力也很强,创建了卡内基梅隆大学的研究生院,创立了卡内基梅隆大学的计算机系,还创建了卡内基梅隆大学的心理系,现在卡内基梅隆的心理系和计算机系是全美最强之一。他还对政治很有兴趣,担任美国科学院防止核战争委员会主席。尼克松总统访华的时候,他作为科学家代表团团长,他还为中国经济建设经济改革给邓小平先生提过建议。他指导学生也很厉害,有两个学生获得图灵奖。他研究的逻辑推理中涉及一个很重要的技术叫作“搜索”,为了让普通人知道“搜索”是一件什么事,他曾经写过一篇文章,这篇文章后来入围一个文学奖,但最后没有获奖。

      他们最重要的贡献是“自动定理证明系统”(Logic Theorist)。这个系统在1956年达特茅斯会议上报告的只是一个雏形,真正的完工在1963年。著名逻辑学家罗素和Whitehead写了一本书叫《数学原理》。因为数学是其他科学的基础,逻辑又是数学的基础。他们一共花了十年的时间把里面的定理证明出来,这个程序只花了两个月就把所有定理全部证明出来。更重要的是中间有一条定理2.65,他们证明的结果比罗素证明的还要巧妙,更简短,更容易理解。后来西蒙把这个结果写信告诉了罗素,罗素非常震惊,立即给他们回了一封信。西蒙很好地理解了它的含义,就马上又回了一封信说,这个结果我们绝对不会告诉广大的中小学生。

      经过了50年代和60年代早期的研究,机器所具有的推理能力已经达到了人类历史上最聪明的数学家、最聪明的逻辑学家的高度,远远超越了一般人。但是这个时候的机器没有智能。大家开始反思,好像逻辑推理不够,还缺一些东西。数学家之所以聪明,不光是因为他有很强的推理能力,还因为他们有很丰厚的数学知识。如果没有这些基础的知识,他不知道原来这些原理定理,结果也证明不出来。所以要做智能,就要研究知识。

      第二个阶段叫作知识期。出发点是知识就是力量。在这个时期,大家想的是怎么样把人类的知识总结出来交给机器。Edward Feigenbaum,1994年图灵奖得主,现在是美国空军的首席科学家。当时做的这些系统就是把人在解决这些问题时的思维过程写成“if,then”的规则,之后编程序,交给机器。当时产生了很多非常有用的系统,叫作“专家系统”。比如最早的专家系统——“DENDRAL”系统是用来帮助化学家分析化学分子式的,还有很多用来地震勘探天气预报等。今天我们用的所有的应用系统都是专家系统。专家系统已经不再成为一个很重要的研究领域,但是它中间发展出来的技术已经变成了很基础的,大家不可能不使用的技术。

      研究者做了很多的专家系统,但是发现所有这些系统离人期望的智能水平有很大的距离。总结出知识再教给机器这个过程很困难。甚至把知识总结出来交给系统,这个知识是不是人真的解决问题用的知识。哪怕请问一个专家说你解决这个问题,你的思考过程是怎么样的?他告诉你首先我怎么样,然后我怎么样,你把这个教给系统,其实他自己解决问题不是这样去想的。比如在你做高考数学题的时候,可能有很多人问你这个题怎么想出来的?你马上会告诉他第一怎么样,第二怎么样,其实你的思维过程可能根本不是这样的。你可能马上得到一个结果,你总结成这个思路教给了他。你要总结出知识,第一总结出的这个知识到底是不是可信可靠,很难说。第二总结的过程非常困难,马上就会有一个很自然的想法。既然总结知识这么难,那么人的知识从哪来的?我们就要学。

      第三个时期叫“学习期”。70年代后期80年代初就有很多学者意识到这个结果。我们的目的是让系统自己去学。机器学习是从人工智能里发展出来的,它是人工智能发展半个世纪以来自然而然产生的结果。但是机器学习的产生,恰恰是在20世纪90年代中后期出现了很多成熟的有效技术,这个阶段人类发现自己已经淹没在数据的海洋里面,对数据分析技术的需求变得极为迫切。所以机器学习虽然本身是作为突破知识工程瓶颈的一个武器出现的,但是发展到今天,它的影响力和它的意义可能已经超越了人工智能自身。

      智能化是信息科学技术发展的主流趋势,机器学习是实现智能化的关键。人的知识从经验里来。机器学习要做的是从经验里面把知识总结出来。机器学习的经典定义是,利用经验改善系统自身的性能。但不管什么样的经验,一旦放在计算机系统里,它一定是以数据的形式存在的。我们要利用经验,必须要对数据进行分析。它主要研究的是我们怎么更好地对数据进行分析,从数据里面建立模型,一定程度上是用计算机来分析数据,是“智能数据分析技术的源泉之一”。

      这个领域现在的影响非常大。2011年和2012年的图灵奖,连续两年授予机器学习领域,或者在这个方面做出重要贡献的学者,这在图灵奖历史上是很罕见的。当时很多人做出了重要的贡献,但拿奖还和当时大家对整个领域的判断有很重要的关系。一个领域连着拿奖,就说明这个领域的重要性。

      机器学习的英文是Machine Learning。比如看病很困难,医生很累、很辛苦,特别是有些疑难杂症很难治。现在在医学研究里面发展出来一个分支叫“循证医学”(Evidence-based medicine)。基本想法是,我们现在新收到一个病人,如果这个病人的症状很难判断,先不要急着去看他,先去看看文献,很可能相似的病症已经有人报告过了,把文献里相似的东西归结总结,说不定可以得到很好的治疗方案。这个想法很好,但在解决这个想法的过程中,会碰到一些困难。第一,今天有大量的医学文献,可能有几千万上亿的文献。第一步要把可能相关的文献找出来。现在有很多信息检索、搜索方面的技术,比如PubMed,可以查关键字,把很多相关的给你。但是到了这个阶段可能还有成千上万个文献,这个时候就需要人来读。人把这些文献大概浏览一遍来说可能真的相关。再基于这个真的相关的研究,把治疗方案总结出来。第二步非常关键,难度非常大。美国的Tufts医学中心要研究一个关于婴儿和儿童残疾的案例,当时筛选出来大概有33000篇摘要和这个病例可能有关。医学中心的专家效率非常高,用30秒的时间浏览每篇摘要,马上就知道有没有关,即使这样还要花250个小时。如果一个医生工作时间是8个小时,这个需要超过一个月,一个月结束之后,这个病人可能已经不在这个地方看病了。如果技术难点不解决,循证医学就不可能发展起来。我们借助以往的医学文献找出今天的治疗方案,只会是一个幻想。更严重的是中间过程不可复制,每一个新的研究都要重复这个过程,更严重的是需要筛选的文章数每天都在增长,增长幅度非常大。Tufts医学中心引入了机器学习技术。拿到很多的文献之后,拿出很少的一部分请专家阅读,标记有关或者无关。从这些数据里建立一个分类的模型,用这个模型对剩下的文献进行判断,哪些是有关的,哪些是无关的。人类专家只要读相关的部分就可以。这个过程只需要读很少的东西,就可以把其他东西都找出来,最后发现人类专家只需要读50篇摘要,这个系统的精度就达到93%。如果读了1000篇,敏感度达到95%。这个标准以往的人类专家都很难达到。每天工作8小时,每30秒钟读一个连续工作,一个月下来,犯错误的可能性太大。有了这样的技术之后,这件事情只需要1000篇就可以做到。这个案例2002年在AI Magazine上发表出来。现在“循证医学”机器学习是一个enableing的技术,使得这个分支可以真正地发展出来。

      机器学习做什么。首先收集到很多数据,每一篇文档用很多属性来描述它,假设我们把这个数据组织成一个表格的形式,每一行是一个人,或者说一个事件,每一列是刻画这个人,或者说这个事件的一个属性。比如说第一行,有一个人叫张三,是教师,年收入6万,他不是我的好顾客。这个是我们要预测的东西,叫“类别标记”。有了这个数据之后,经过训练得到一个模型,这个模型是抽象的说法,从这个数据里面我们找出来的任何东西,不管是决策树,还是神经网络、支持向量机等,都把它叫模型。

      有了这个模型以后,我们拿一个新的数据。比如一个人叫刘二,公务员,收入是8万,他是不是我的好顾客?不知道,我把这个数据提交给这个模型,这个模型会给你一个预测的结果,说他是好顾客。现实生活中各种各样的预测任务,抽象出来,在计算机上都是这么一个过程。如果我们要在计算机上解决预测建模的任务,背后都是在做机器学习。最关键的是怎么样把数据变成模型。我们要使用一个学习算法,有一种说法是“计算机科学是关于算法的科学”。从这个意义上,机器学习研究的是关于把数据变成模型的算法,它的设计、分析和应用的学科。以后只要想到有很多数据,需要建一个模型,而这个建模过程不是靠人来做,把数据给计算机,让计算机来做,这个背后一定需要用到机器学习技术。

      “数据挖掘”,从很多的数据里面找好东西。从技术的层面上来看,数据挖掘就是把机器学习领域提供的数据分析技术和数据库领域提供的数据管理技术一起,用来处理数据。谈到数据分析的时候,经常不加区分地说机器学习和数据挖掘,这时候其实谈的是数据分析部分,不是在谈数据管理部分。

      机器学习发展到今天,大概能做些什么事情。首先机器学习是信息学科产生的一个分支。很多同学进入计算机学科,经常说我的motivition是什么?我看到谁谁谁,又入侵了什么地方的网站,做黑客,所以觉得学电脑学计算机很好玩。

      但这个背后是做信息安全。信息安全有个很重要的技术,需要做一个防火墙,他要判断你来的这个东西到底是不是入侵,如果是入侵的话,是什么样的入侵?以往大家做这件事情通过人的经验,写出很多的模式,如果访问从一个地方来,扫描我哪个端口,短时间内扫描了很多次,这是个入侵。但所有可能的入侵模式是不可能全部枚举出来的。一旦你把这些规则写完了,一旦这个系统投入使用了,马上会设计出新的攻击方式,这个是没办法预见的。所以在这些规则的基础上还要收集数据,收集很多入侵的数据的表现模式和结果,还有很多正常的数据的表现模式和结果。我们要建一个模型,来一个新的访问模式的时候,扔给这个模型,这个模型告诉我,它是不是入侵?是什么样的入侵?在防火墙技术里用到的大量技术,都是我们在机器学习的一些教科书里面,或者传统的经典书籍里面能看到的技术。

      现在有一个很热门的领域叫“生物信息学”。人类基因组计划,水稻基因组计划是在做什么?把人类或者其他物种到底有哪些基因列出来。希望知道这些基因和我们的某种疾病之间有没有一些关系。如果有关系,可能涉及一些基因药物,有这个基因缺陷,给你吃这个药,你以后就不会得这个病。现在已经发现很多疾病和基因缺陷有关的。有了基因组计划,更重要的一步就是要发现说哪些基因缺陷和哪些疾病有关?从生物的表现来说,这涉及DNA到基因到基因表达到蛋白质等过程。但从数据的角度来看,要获取数据,然后把数据管理起来,再做数据分析,最后对数据分析的结果进行仿真,看看是不是真的基因缺陷,会造成什么样的结果。在数据分析这个部分,不可避免地要用到机器学习技术。

      今天机器学习对很多交叉学科已经是一个非常重要的支撑技术,不光是生物信息学,还包括计算金融学、行星地质学等,都要用到数据分析技术。今天大家每天可能都在用,只不过大家不知道,比如Google、百度等搜索引擎已经改变了人类的生活。美国《新闻周刊》对Google有过一句话的评述,如果让你想一句话来说Google有什么用,你能怎么说?当时找出来的最好的一句话是,Google的作用是使任何人离任何答案之间的距离变得只有点一下鼠标这么远。后面到底是什么技术在支撑它?第一,作为一个搜索引擎,我们要知道这个世界上、网上到底存在什么东西,要把它数据的管理、索引要建好。第二,当你输入一个查询的时候,我要把合理查询最相关的东西给你。这就是在建立一个模型。我先有一个输入,把和我这个输入最有关的答案给我,你给我输入以后我给你输出。这就是机器学习的模型,在后台要支撑它。

      我从来不用手机,从来不用电脑,更不会用搜索引擎,但机器学习离我还是不是很远。因为它不断地改变我们的生活。比如自动汽车驾驶。每天路上都开着很多车,每天都有很多的事故,人类每天死在交通事故上的人数已经超过了每天死在战争里的人数。很早以前大家就有一个梦想,能不能做自动驾驶汽车,如果汽车能够自动驾驶了,问题就没有了。今天出现的交通事故无外乎就有几种情况,一个酒后驾驶,一个疲劳驾驶,还有个新手驾驶。但是对机器来说,机器不会酒后驾驶,机器也不存在疲劳驾驶,机器更不会是新手,软件给它upload之后,它都是一样。理论上来说这个确实可以做到,因为开车就是方向盘打多少度,油门踩多大幅度,机器是可以做精确控制,比人控制的要好得多。但是为什么自动汽车驾驶技术做不出来,或者说以往一直没有做出来,因为我们没有办法事先在汽车厂里面,把你驾驶过程中出现的一切问题都设想到,没有办法把这些规则写出来,一旦什么情况发生,该采取什么动作。比如谁也不会想到我今天车开在路上,突然前面窜出来一个自行车,我该怎么办?到了乡村,突然前面来一个牛,看到牛该怎么办,看到猪该怎么办?我不可能把这些东西全部写到规则,需要汽车自己有处理紧急事件的能力,它通过很多以往的知识和以往的经验,能够知道现在发生这个事情,我该怎么做。这背后还是机器学习问题。

    分集列表 (共3集)

    课程简介

    机器学习与人工智能是当今时代大潮流发展趋势下人们非常关注的热门问题,周志华教授用浅显的语言为不同专业背景的学生们科普了关于这两方面的相关内容。

    人工智能,用马文·明斯基的话来解释,就是什么事情是需要智能的,就通过机器来做,这就是人工智能。要理解人工智能的含义,首先要明确智能是什么?周教授给出了两位比较重要的学者(Edward Feigenbaum和侯世达)的定义,让大家有了更深一层的见解。而要更好地理解智能的含义,必然要提到“图灵测试”。周教授为大家介绍了阿兰·图灵的三个伟大贡献,而第三个就是“图灵测试”实验,实验的本质是从表现上来评判智能。之后一位认知科学家提出的“西尔勒中文屋子”实验,相当于是“图灵测试”的变体。接下来,周教授详细介绍了历史上的“人棋对战”事件,指出“图灵测试”的局限性。关于人工智能,周教授提出目前存在两大派别,即强人工智能和弱人工智能。当前更多的学者是集中在后者进行研究。目前人工智能发展的主流阶段有三个,分别是推理期、知识期和学习期。而机器学习就是从人工智能的学习期发展出来的。

    关于机器学习,周教授主要从定义、应用以及当前与大数据时代相结合的发展前景展开讲解。其中关于应用,他主要从信息、文化、艺术、政治等贯穿我们生活方方面面的层次进行介绍。让大家感叹机器学习无处不在。

    无论是学习哪一个学科,从事哪一个领域,对机器学习方面的内容都应该多了解一些,多掌握一些,这对我们未来的发展一定是非常有好处的。

    (视频拍摄于2014年)

    纸书购买
    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    谢谢!

    试用结束,开通会员即可查阅全文

    对不起,您所在机构没有获得相应使用权限。若需获得更多服务,请与您所在机构的负责部门或本网站客服联系。