机器学习是做什么的？——以“循证医学”上的应用为例

首页 . 专题板块 . 名家讲堂

机器学习是做什么的？——以“循证医学”上的应用为例

主讲人周志华

周志华

南京大学计算机科学与技术系教授、博导。2003年获国家杰出青年科学基金，2006年入选教育部长江学者特聘教授。现任南京大学计算机软件新技术国家重点实验室常务副主任、机器学习与数据挖掘研究所（LAMDA）所长、人工智能教研室主任。主要从事人工智能、机器学习、数据挖掘、模式识别等领域的研究工作。

最后更新 2022-09-05

浏览 15次

最后更新 2022-09-05

浏览 15次

意见反馈

主讲人周志华

南京大学

机器学习的英文是Machine Learning。比如看病很困难，医生很累、很辛苦，特别是有些疑难杂症很难治。现在在医学研究里面发展出来一个分支叫“循证医学”（Evidence-based medicine）。基本想法是，我们现在新收到一个病人，如果这个病人的症状很难判断，先不要急着去看他，先去看看文献，很可能相似的病症已经有人报告过了，把文献里相似的东西归结总结，说不定可以得到很好的治疗方案。这个想法很好，但在解决这个想法的过程中，会碰到一些困难。第一，今天有大量的医学文献，可能有几千万上亿的文献。第一步要把可能相关的文献找出来。现在有很多信息检索、搜索方面的技术，比如PubMed，可以查关键字，把很多相关的给你。但是到了这个阶段可能还有成千上万个文献，这个时候就需要人来读。人把这些文献大概浏览一遍来说可能真的相关。再基于这个真的相关的研究，把治疗方案总结出来。第二步非常关键，难度非常大。美国的Tufts医学中心要研究一个关于婴儿和儿童残疾的案例，当时筛选出来大概有33000篇摘要和这个病例可能有关。医学中心的专家效率非常高，用30秒的时间浏览每篇摘要，马上就知道有没有关，即使这样还要花250个小时。如果一个医生工作时间是8个小时，这个需要超过一个月，一个月结束之后，这个病人可能已经不在这个地方看病了。如果技术难点不解决，循证医学就不可能发展起来。我们借助以往的医学文献找出今天的治疗方案，只会是一个幻想。更严重的是中间过程不可复制，每一个新的研究都要重复这个过程，更严重的是需要筛选的文章数每天都在增长，增长幅度非常大。Tufts医学中心引入了机器学习技术。拿到很多的文献之后，拿出很少的一部分请专家阅读，标记有关或者无关。从这些数据里建立一个分类的模型，用这个模型对剩下的文献进行判断，哪些是有关的，哪些是无关的。人类专家只要读相关的部分就可以。这个过程只需要读很少的东西，就可以把其他东西都找出来，最后发现人类专家只需要读50篇摘要，这个系统的精度就达到93%。如果读了1000篇，敏感度达到95%。这个标准以往的人类专家都很难达到。每天工作8小时，每30秒钟读一个连续工作，一个月下来，犯错误的可能性太大。有了这样的技术之后，这件事情只需要1000篇就可以做到。这个案例2002年在AI Magazine上发表出来。现在“循证医学”机器学习是一个enableing的技术，使得这个分支可以真正地发展出来。

同主题知识点（机器学习与人工智能）

机器学习是做什么的？——以“循证医学”上的应用为例

周志华

感谢您的反馈