请在 下方输入 要搜索的题目:

下面哪一种方法不是通过迭代计算贝尔曼方程来进行策略评估( )


A、动态规划;
B、蒙特卡洛采样;
C、时序差分(Temporal Difference);
D、深度学习

发布时间:2025-05-20 09:03:11
推荐参考答案 ( 由 快搜搜题库 官方老师解答 )
联系客服
答案:深度学习
专业技术学习
专业技术学习
搜搜题库系统