蒙特卡洛

关注人关注

我要报错

兼具动态规划DP和蒙特卡洛MC优点的TD Learning算法

TD Learning时序差分学习结合了动态规划DP和蒙特卡洛MC方法，且兼具两种算法的优点，是强化学习的核心思想。虽然蒙特卡罗MC方法仅在最终结果已知时才调整其估计值，但TD Lea

人工智能AI
2020-08-04

数据蒙特卡洛