一种从环境状态到动作映射的学习,以使动作从环境中获得的累积奖赏值最大。是机器学习中的一个领域。
试用结束,开通会员即可查阅全文
对不起,您所在机构没有获得相应使用权限。若需获得更多服务,请与您所在机构的负责部门或本网站客服联系。