请在 下方输入 要搜索的题目:

目前强化学习探索策略主要有将特定状态-动作对的价值函数用计数器的频数统计的蒙特卡罗方法和基于步骤样例学习的时间差分方法。


A、对
B、错

发布时间:2025-05-11 19:20:35
推荐参考答案 ( 由 快搜搜题库 官方老师解答 )
联系客服
答案:
专业技术学习
专业技术学习
搜搜题库系统