AlphaGo是怎么学习的?
AlphaGo真的能学习吗?它学习能力究竟有多强?学习能力强意味着有可能变得很强大。它找了很多海量的棋谱,并找高级棋手陪练,签了保密协议。它不仅打败过欧洲的两段选手,还有更高的棋手跟它在一起练。他们获取的是当前棋局与下一步走步之间的匹配模式,通过Deep Learning学习这种映射关系,输入是当前的布局,输出是下一次要把子布到什么地方。从以前看到过的棋局中抽取出来,形成训练集。就像观察到X和Y一样,X当X是这些值的时候,Y分别在这些地方。然后找到一个拟合曲线把这些点合起来,y=f(x)。一次、二次、高次、带指数的、三角函数等都可以。通过有限的样本点,把函数的样子拟合出来,然后外推。
这是看过的点,数轴上还有大量没看过的点,没看过的点用函数来推。当出现棋局是这个点的时候,我对应到这种走法上,当现在的走步在这个地方时,没有现成的点可以依靠时,看一看对应的点是什么和这个点对应的是什么,拿这两个作为下一次要走步考虑的点。
棋局比函数要复杂,但理论上来讲,用的方式差不多,叫类推。我只有有限的点,但是我能推出没见过的点,我应该怎么下,完全做得到。它做的一件事情就是学习映射关系,用Deep Learning(深度学习)来做。现在非常热,但是我估计不会热太久。因为在人工智能领域,一件技术出来以后,潜力挖掘得差不多了,就不会很热了。
用这种方法进行映射的好处是训练样本,规范性很强,属于非常干净的数据,拿机器做很容易做好。基于规范数据挖掘出布局与走步间的对应关系不难。换别的机器学习算法也能做到,不一定用Deep Learning,Deep Learning代价很高,消耗很大。
- 危辉教授对人工智能的乐观与悲观
- 为什么人跟机器下棋会输?
- 人工智能的春天真的到了吗?
- 双人棋盘游戏的几个例子
- 双人博弈游戏的共同特点
- 为什么说下棋程序是人工智能的“软柿子”?
- 计算机如何处理博弈游戏——以“分堆游戏”为例
- 围棋的特殊之处
- 棋盘的所有可能性布局可以庞大到什么程度?
- 歧路寻羊带来的启示
- 如何提高搜索效率?
- “以一当十”,虽败犹荣
- AlphaGo下棋有“创新”吗?
- 与机器是否创新有关的例子
- 机器如何“思考”下棋?
- AlphaGo存在的一些技术细节与进步意义
- AlphaGo是怎么学习的?
- AlphaGo能创新吗?
- 国内不做人工智能围棋研究就落后了吗?
- AlphaGo把人打败了,人类智能就此崩塌了吗?
- 为什么说我们要对大自然心存敬畏?
京公网安备 11010202008139号