为什么说机器学习并非“一切皆可学”?
机器学习很强大,但绝对不是说所有的东西都是可学习的。很多的股票爱好者经常说股票数据现在都是公开的,能不能做一个模型,告诉我明天该买什么股票。这里面还有很多问题,不是说有数据一定能学,至少不一定能学好。第一,特征信息不充分。一些很重要的特征信息,如果没有获得,很难做好。第二,样本数据很少,也不太可能做很好的预测。比如很多人都说地震预报没有效果,根本原因还是数据太少。真正在地层里打下洞获得各个地层岩石样本的数据很少,恰恰打过的洞,收集过的数据,这个地方又发生过地震的是罕见的。所以要么是发生过地震,但我不知道这个地方到底什么样,要么是我知道这个地方怎么样,但是没发生过地震。这些数据全加起来,可能也只有几十个、百把个。这对建一个有效的模型还远得很。所以今天要做类似地震预测的事情,科学道理是有的,但是数据的准备远远没有达到能做有效的预测的程度。
机器学习能做一些事,但有些事情不能做。一件事情到底能做成什么样,不能做成什么样,有没有办法从理论上研究?如果没有很好的理论,那么这个领域不可能成为一个学科(science)。机器学习领域有一个分支叫“计算学习理论”,研究的是说当你给我数据之后,我做这个结果到底能做得多好。它的提出者是莱斯利·威廉特教授,2010年图灵奖得主。他在1984年的时候发表了一篇论文,提出了“概率近似正确”模型。搜集到的数据就是X,做的模型是f(X),真正期望的理想结果是Y,希望做到的模型和期望的结果差距非常小,小于Э,这就是说做到的模型非常精确。但这个模型不是每次都做得这么好,希望的概率是大于1减δ。你给我数据之后,我能做到的最好的事情是以很大的把握得到一个很精确的模型给你,你绝对不能指望我做到百分之百,也不能指望我每次都能做到百分之百。因为你给我的数据可能已经决定了我没有办法达到理论上的上限。
- 人工智能是什么?
- 马文•明斯基
- 智能是什么?
- 阿兰·图灵的三大贡献
- 什么是“图灵测试”实验?
- 什么是“西尔勒中文屋子”实验?
- 棋艺超过人的机器具有智能吗?
- 如何理解人工智能的两种不同说法?
- “人工智能”学科是如何诞生的?
- 人工智能发展的第一阶段
- 赫伯特•西蒙的成就及贡献
- 人工智能发展的第二阶段
- 人工智能发展的第三阶段
- 机器学习的定义
- 机器学习是做什么的?——以“循证医学”上的应用为例
- 机器学习过程是什么样的?
- “数据挖掘”与“机器学习”的关系
- 机器学习在信息学科的应用——防火墙
- 机器学习在交叉学科的应用——生物信息学
- 机器学习在搜索引擎上的应用
- 机器学习在自动汽车驾驶上的应用
- 机器学习在文化上的应用——古文献修复
- 机器学习在艺术上的应用——画作鉴别
- 机器学习在政治上的应用——帮助奥巴马胜选
- 为什么说机器学习并非“一切皆可学”?
- 为什么说大数据时代下,机器学习显得尤为重要?
京公网安备 11010202008139号