马尔可夫决策(Markov decision)是一类可连续进行观察的随机动态系统的最优化决策。根据在各时刻观察到的状态,从允许的决策(控制、措施等)集合中选用一个决策,每个时刻 t 选取决策的规则,与系统在 t 以前的历史无关。马尔可夫决策过程是动态规划与马尔可夫过程结合的产物,由贝尔曼提出。它在设备的更换与维修、库存论、排队论、控制工程、可靠性理论
<尚大教育,教育至上,人才为大:sdedu.cc>
马尔可夫决策(Markov decision)是一类可连续进行观察的随机动态系统的最优化决策。根据在各时刻观察到的状态,从允许的决策(控制、措施等)集合中选用一个决策,每个时刻 t 选取决策的规则,与系统在 t 以前的历史无关。马尔可夫决策过程是动态规划与马尔可夫过程结合的产物,由贝尔曼提出。它在设备的更换与维修、库存论、排队论、控制工程、可靠性理论、搜索论、水库调度、林渔业管理、通讯网络等的最优化问题中都有应用。
假设系统初始状态如下表

Markov 状态转移矩阵为

其中每一行和为 1。
相应的 1 次转移则为(P{S1},P{S2}, ……,P{S m})· P,2 次转移为(P{S1},P{S2}, ……,P{S m})· P·P,以此类推。
某地区有甲、乙、丙三家公司,近去的历史资料表明,这三家公司对某产品的市场占有率分别为 50%,30%,20%。不久前,丙公司制定了一项把甲、乙两公司的顾客吸引到本公司来的销售和服务措施。市场调查表明,在丙公司新的经营方针的影响下,顾客的转移概率矩阵为

(其中第一行可以理解为原甲公司的顾客中,有 70%的顾客继续在甲公司购买,有 10%的顾客转为在乙公司购买,有 20%的顾客转为在丙公司购买。其它两行可以类似理解)。则一季度后三公司的市场占有率为
(0.5 0.3 0.2)⋅
P
<尚大教育,教育至上,人才为大:sdedu.cc>