机器学习与人工智能（三）

首页 . 专题板块 . 名家讲堂

机器学习与人工智能（三）

主讲人周志华

周志华

南京大学计算机科学与技术系教授、博导。2003年获国家杰出青年科学基金，2006年入选教育部长江学者特聘教授。现任南京大学计算机软件新技术国家重点实验室常务副主任、机器学习与数据挖掘研究所（LAMDA）所长、人工智能教研室主任。主要从事人工智能、机器学习、数据挖掘、模式识别等领域的研究工作。

最后更新 2021-12-28

浏览 32次

最后更新 2021-12-28

浏览 32次

意见反馈

今天自动驾驶汽车得到了非常大的发展，恰恰是因为在过去十年里，机器学习技术得到了非常大的发展。美国19世纪80年代就开始做了，世界上第一本机器学习的教科书是1997年Tom Mitchell写的Machine Learning，里面有一章说我通过车载的摄像头，看到路面上是这样的情况，你来判断车该往哪开。当时用“神经网络”，“神经网络”的输出是告诉你车该往哪开。高速公路是比较好开的，因为它的标记很清楚，大家开车都比较规矩，车距保持得很好，难的是市区的公路，还有人、车、自行车混杂的交通，一直没有解决。科学技术发展有两个最大的推动力，一个是战争，一个是航空航天，其实都和战争有关系。美国有两个重要的部门，一个是DARPA，今天用到的Internet，都源于DARPA早期的研究；另一个NASA（航空航天局）。2004年DARPA推动了自动驾驶汽车的Grand Challenge。这和伊拉克战争分不开。美军发现每天死在运输途中的士兵数比在交火过程中更多，所以开始研究自动驾驶。当时分成两条路走，一是走运人的，一是走运货的。youtube有一些视频，做得像骡子、马一样像狗跑得特别快，能背很重的东西。2004、2005年，美国国防部高级研究计划局（DARPA）有了重大的进展。做报告的是Sebastian Thrun教授，当时在斯坦福大学，带领他的学生做了无人驾驶汽车，在内华达州沙漠比赛，开了250多公里，用了6个多小时。这个路非常复杂，到处都是沙，有的地方有陷下去，有的地方沙是会动的，要避开这些地方，最后这个车获得了胜利。他们用人来测，有15年驾龄的人类驾驶员开这段路大概要五个半小时。Thrun到Google做在线教学课程——Udacity，Google今天已经有很大的团队做自动驾驶汽车。以往大家认为谷歌公司是搜索公司、网络公司，其实已经开始有实体了，就是汽车。今天实用的自动汽车驾驶已经不再是个梦想，开始出现产品了。但有些法律障碍，比如车撞人后到底是谁的问题？美国几个州无人驾驶汽车已经可以上路了。这个研制除了传统的汽车公司之外，谷歌起了非常大的作用。有了这样一辆车之后，再和谷歌的地图结合起来，上车之后你告诉它，现在带我回家，它就可以带你回家了。而且它还可以根据谷歌地图检测到的交通流量，很聪明地找一些不会堵车的路，可能比人开得还要好。我们可以很好地建一个模型，这个模型把汽车上装的各种传感器收到的数据作为输入，我们在汽车厂里做各种训练，得到这样的思路之后，我该做什么样的操作。今后上路的时候，发生我没有见过的事情，这个模型可以给你合适的输出，让你做合适的操作。

机器学习的影响力不光在技术和生活层面，对人类的文化也产生了影响。比如古文献修复。古文献是研究历史的基本素材。掌握什么样的素材，直接决定了研究结果。1947年出土了《死海古卷》。当时，在死海西北部一个小村庄里面，有一个牧羊童偶然在一个山洞里面发现了一些羊皮纸，然后大家挖出来很多。现在基本认为它是公元前2世纪基督诞生前就开始写的，一直持续到公元6世纪。里面的内容反映了中东地区当时的宗教、历史、文化，也找到了一部分《旧约圣经》。中东地区很多的争斗都起源于宗教，如果找到典籍，就真的可以说那个时候是怎么样的。羊皮纸要研究起来很困难。很多人研究它，希望从里面找出一些对今天有帮助的发现，研究投入最多的是以色列。以色列如果能找到一些证据，可能它和巴勒斯坦的一些争议就有历史依据了。《圣经》里不同基督教里面不同流派的形成，也和当时经文的理解不一样。《圣经》有不同的版本，现在就有老祖宗的版本。这是在开罗发现的，也是超过30万个片段，这些东西研究起来很困难。很多高水平专家的精力用来修复古文献，但这样的专家是非常少见的，很难培养出来。让原来的书籍变成分散的多个书页，怎么样把它相邻的拼起来，你拼的次序不对，就导致研究的结论可能是错误的，人工做很困难。现在有古文献的数字化，Google在里面起到重要的作用，把《死海古卷》数字化。以色列特拉维夫大学学者把机器学习用来做自动的书页拼接，研究《死海古卷》。已经知道有一些是相邻的，有一些是不相邻的，把它变成一个一个的样本，然后做一个分类模型，用分类模型判断它是不是相邻，得出的结果再请专家确认。自动判断精度超过了93%，在不到一年时间里完成了1000篇文章的拼接。而在过去整个世纪里，几百位非常少有的专家，总共也只完成了几千篇。一个计算机程序在短短的时间里已经替代了整个世纪里面全世界专家所能做的事情。它能做的指数级是上升的。很多以往的一些争议，可能都能通过机器学习的辅助得到解答。

再来谈谈艺术。画作鉴别是很多博物馆经常碰到的问题，包括很多拍卖会经常买到假货。这是勃鲁盖尔的作品，这是梵高的作品。专家能看出来，一般人看不出来，而且很多专家的看法不太一样。有一个很重要的技术手段叫作“用笔触”，不同的画家画的基本元素不太一样。“笔触”可以利用计算机的图像处理技术，把它的纹理特征提出来，然后在这个基础上进行分析。以往只有少数专家才能做，专家各攻一门，比如研究梵高的，可能没有办法研究毕加索，很难掌握不同时期不同流派多位画家风格。研究某一位画家研究的专家，只在某一两个博物馆有，别的博物馆没有，要去借人。最近几年机器学习被用来降低画作分析的成本。我们有一个待鉴定的画作，这是真迹加赝品，把真迹和赝品的笔触抽出来，然后建一个分类模型，用这个模型对它做预测，最后判断出它好不好。

这是荷兰Kroller Muller美术馆和康奈尔大学一起做的，他们对82幅梵高的真迹和6幅赝品进行鉴赏，精度达到95%。赝品里面有四幅被完全找出来了，巴黎高师对勃鲁盖尔真迹和赝品分析精度达到100%。这个结果2009年发表在美国科学院院刊上。做了这个之后，如果是赝品肯定就不买了。如果是真迹，我可能再去找专家，专家很少，这样可以大幅度降低成本。它对用户要求很低，适用范围广。一旦做了这个程序，把数据收集起来，梵高也可以做，毕加索也可以做，其他都可以做了。不存在训练一个专家要几十年，另一个专家又得重新训练的情况。

在政治上，机器学习更是影响了我们的生活。在帮助奥巴马胜选方面，机器学习发挥了重要作用。奥巴马赢得大选之后，美国《时代周刊》曾经发了一个文章，关于奥巴马的数据分析人员怎么样帮助他win。奥巴马有一个专门的团队，里面有很著名的机器学习的学者，帮助他分析竞选的数据。竞选要筹款，奥巴马当时筹集了创历史记录的10亿美元的款项，有很多办法。一个办法是请人和他一起吃饭，这是经常用到的招数。总统时间很宝贵，只能吃几顿饭，请到合适的人帮他卖出好价钱，吸引最多的人来掏钱。这就要考虑饭在什么地方吃，和什么人一起吃，到底什么人可能掏钱，这些人钱多不多等问题。用这个系统他们分析出来，有一个明星乔治·克鲁尼，如果在美国西部地区请他一起吃，他对美西地区40到49岁的女性很有吸引力，而她们恰恰最有经济实力，也最愿意掏钱的人。这一顿饭给奥巴马筹集到1500万美元，这是一个很成功的分析。第一次辩论之后，有哪些选民可能会倒戈。他要分析出来，然后有针对性地宣传。以往是发传单，每个人看的都一样。现在做个性化。你喜欢打篮球的，告诉你奥巴马很喜欢打篮球，你应该投他票。你家里养着宠物，我说他家养宠物和你家蛮像的。还有一个办法，对工业界的人有很大的启发，就是买广告。以往买广告是希望买黄金时段、收视率最高的，这个肯定很贵。他们买一些冷门节目的广告时段，通过这个数据分析，看这个时段大概是哪一群人。通过买很多的冷门，所有人群的覆盖率和买热门的时段差不多，但是花的钱要少很多。比如五六点钟广告片时段可能很便宜，但覆盖了中小学生；买中午时段养花种草的，覆盖了很多老年人。领导小组的队长是卡内基梅隆大学机器学习系第一任系主任汤姆米切尔的博士生。他在半监督学习方面做了很多的事情。奥巴马说这个团队是他的核武器，肯定了他们的地位。在数据挖掘上有个重要的会议叫KDD。在前年，奥巴马还没竞选成功时，我们说第二年KDD大会准备请他来做特邀报告。如果奥巴马赢了，报告叫“How Data Mining Helps He Win US President”。如果输了是“Lessons and Experience from……”。但第二年奥巴马胜选了，身价完全不一样了，学术会请不起了。

机器学习今天无处不在。比如航空航天，把火星机器人送上天之后，做的一切操作要根据当前情况自己判断，没有办法在地球上遥控。因为距离太远。当它把图像发回来，再告诉它该怎么做，传输时间非常长，可能环境已经发生变化，所以一定是要它自己做判断，这个判断的背后也是机器学习的技术在起作用。打仗的时候，对战场的信息的综合也是DARPA要做的，虚拟军官、虚拟人帮助你来分析战场上的情况。今天不光科学界、政府关注机器学习，工业界对机器学习的投入也非常大，不管是微软还是Google，对机器学习都很关注。微软的史蒂夫·鲍尔默说“机器学习是微软创新的关键”。

机器学习很强大，但绝对不是说所有的东西都是可学习的。很多的股票爱好者经常说股票数据现在都是公开的，能不能做一个模型，告诉我明天该买什么股票。这里面还有很多问题，不是说有数据一定能学，至少不一定能学好。第一，特征信息不充分。一些很重要的特征信息，如果没有获得，很难做好。第二，样本数据很少，也不太可能做很好的预测。比如很多人都说地震预报没有效果，根本原因还是数据太少。真正在地层里打下洞获得各个地层岩石样本的数据很少，恰恰打过的洞，收集过的数据，这个地方又发生过地震的是罕见的。所以要么是发生过地震，但我不知道这个地方到底什么样，要么是我知道这个地方怎么样，但是没发生过地震。这些数据全加起来，可能也只有几十个、百把个。这对建一个有效的模型还远得很。所以今天要做类似地震预测的事情，科学道理是有的，但是数据的准备远远没有达到能做有效的预测的程度。

机器学习能做一些事，但有些事情不能做。一件事情到底能做成什么样，不能做成什么样，有没有办法从理论上研究？如果没有很好的理论，那么这个领域不可能成为一个学科（science）。机器学习领域有一个分支叫“计算学习理论”，研究的是说当你给我数据之后，我做这个结果到底能做得多好。它的提出者是莱斯利·威廉特教授，2010年图灵奖得主。他在1984年的时候发表了一篇论文，提出了“概率近似正确”模型。搜集到的数据就是X，做的模型是f（X），真正期望的理想结果是Y，希望做到的模型和期望的结果差距非常小，小于Э，这就是说做到的模型非常精确。但这个模型不是每次都做得这么好，希望的概率是大于1减δ。你给我数据之后，我能做到的最好的事情是以很大的把握得到一个很精确的模型给你，你绝对不能指望我做到百分之百，也不能指望我每次都能做到百分之百。因为你给我的数据可能已经决定了我没有办法达到理论上的上限。

今天机器学习已经是一个非常广大的学科领域。在第29届国际机器学习大会里面列出的“主题领域”有很多。如果要在世界上找一个人懂得所有这些东西肯定是找不出来的。能够懂2/3，在国际上肯定是非常了不起的人物。2006年，美国卡耐基梅隆大学专门成立了机器学习系，这是世界上第一个机器学习系。

今天进入大数据时代，到处都是数据。你要利用数据没有机器学习是不可能的。大数据之所以炒得这么热，和美国奥巴马政府提出的“大数据计划”密切相关。在他提出大数据计划之后，美国NSF提出了第二个很重要的计划。大数据不能光是炒作，要去研究里面到底有什么关键技术。美国NSF说现在有三个技术非常关键，在大数据时代他们是致命的关键性的结果。一个叫机器学习，一个叫云计算，一个叫crowdsourcing（“众包”）。它做的事情是搜集数据。我们要做一个很好的模型，不光要有输入，还要有输出。以往输出是通过人来给的，现在数据这么多，不可能通过人给。我们可以把这个任务发到网上，发动网民一起来做，这就是“众包”。大家每天上网都要输验证码，就是在为OCR模型提供数据。游戏里给你一张图像，你能不能找出相似的，点一下，我给你几分，这也是提供数据。“众包”还有很多要研究的内容，比如该花多少钱做这件事等。“众包”提供了数据，云计算提供了处理数据的计算能力和存储能力。有了处理能力，有了数据，怎么分析它就要靠机器学习。

收集传输存储大数据的目的是为了利用大数据，但是如果没有机器学习技术分析大数据，利用大数据就无从谈起。不管是哪一个学科，哪一个领域，对机器学习方面的内容多了解一些，多掌握一些，对大家未来的发展一定非常有好处。

分集列表 (共3集)

课程简介

机器学习与人工智能是当今时代大潮流发展趋势下人们非常关注的热门问题，周志华教授用浅显的语言为不同专业背景的学生们科普了关于这两方面的相关内容。

人工智能，用马文·明斯基的话来解释，就是什么事情是需要智能的，就通过机器来做，这就是人工智能。要理解人工智能的含义，首先要明确智能是什么？周教授给出了两位比较重要的学者（Edward Feigenbaum和侯世达）的定义，让大家有了更深一层的见解。而要更好地理解智能的含义，必然要提到“图灵测试”。周教授为大家介绍了阿兰·图灵的三个伟大贡献，而第三个就是“图灵测试”实验，实验的本质是从表现上来评判智能。之后一位认知科学家提出的“西尔勒中文屋子”实验，相当于是“图灵测试”的变体。接下来，周教授详细介绍了历史上的“人棋对战”事件，指出“图灵测试”的局限性。关于人工智能，周教授提出目前存在两大派别，即强人工智能和弱人工智能。当前更多的学者是集中在后者进行研究。目前人工智能发展的主流阶段有三个，分别是推理期、知识期和学习期。而机器学习就是从人工智能的学习期发展出来的。

关于机器学习，周教授主要从定义、应用以及当前与大数据时代相结合的发展前景展开讲解。其中关于应用，他主要从信息、文化、艺术、政治等贯穿我们生活方方面面的层次进行介绍。让大家感叹机器学习无处不在。

无论是学习哪一个学科，从事哪一个领域，对机器学习方面的内容都应该多了解一些，多掌握一些，这对我们未来的发展一定是非常有好处的。

（视频拍摄于2014年）

机器学习与人工智能（三）

周志华

课程简介

感谢您的反馈