请在 下方输入 要搜索的题目:

基于策略迭代的方法是交替进行策略评价和策略改进,其中策略评价中需要迭代多次,以保证当前策略评价收敛。因此,算法收敛较快。


A、正确;

B、错误

发布时间:2025-02-24 17:02:19
推荐参考答案 ( 由 快搜搜题库 官方老师解答 )
联系客服
答案:错误
专业技术学习
专业技术学习
搜搜题库系统