博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(1)
阅读量:6084 次
发布时间:2019-06-20

本文共 591 字,大约阅读时间需要 1 分钟。

我们介绍过以及什么是,甚至从强化学习的角度介绍了,, 等求解最优MDP方法,但是要深入理解强化学习,必须了解背后支持的理论基础。动态规划(Dynamic programming)就是这些算法为什么能够求解最优MDP的理论基础。

img_764feb2671ca466c22ae8a47f9ccf766.png

动态规划的本质是将复杂大问题分解成,相互重叠的简单子问题,求到子问题的的最优解,然后将这些最优解组合起来就是大问题的最优解。

举个简单的例子,女朋友想在衣帽间中找到最搭的穿戴(衣服,帽子,鞋子,首饰。。。)。这是一个复杂的问题,但是我们可以把这个问题分解成互相重叠的小问题,比如,找到最佳搭配的鞋子和裤子。最佳搭配的裤子和衣服,最佳搭配的衣服和首饰等等。。。将这些搭配打完分之后,你自然就会找到最佳搭配的(得分最高的)衣服,裤子,帽子,鞋子和首饰了。

能用动态规划解决的问题必须满足两个条件,第一是可以拆解成子问题,第二这些子问题必须能相互重叠,MDP就满足这两个条件。

在用动态规划解决MDP问题的时候需要用到之前提到的Bellman公式,已经用Bellman公式1.预测v函数(状态值函数),2.通过价值迭代(Value iteration)求最优MDP 3. 通过策略迭代(Policy Iternation)来求得最优MDP。这些内容将放在下一篇文章中介绍。


相关文章


文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言或者访问

转载地址:http://uzuwa.baihongyu.com/

你可能感兴趣的文章
【SMTP 补录】
查看>>
zabbix通过External checks的方式自动发现交换机端口(只提取up的)
查看>>
CentOS下配置LAMP
查看>>
Myeclipse报错-->Animation Start An internal error has occurred. java.lang.NullPointerException解决...
查看>>
CSS性能优化
查看>>
C# 流
查看>>
查杀端口进程
查看>>
PHP版本的IP段验证类
查看>>
openstack M版安装 compute(nova)服务篇
查看>>
大学四年你必须做到的事儿---那些学计算机的
查看>>
rlwrap安装
查看>>
【scala初学】scala IDE eclipse
查看>>
VMM2012应用指南之4-向VMM中添加Hyper-V主机与应用服务器
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
perl文件读写
查看>>
R-FCN
查看>>
DenseNet
查看>>
jspsmart 支持jdk1.4 解决utf-8编码时出现乱码的问题 附源码和jar包
查看>>
我的友情链接
查看>>