蒙特卡洛(MC)算法的特征: A、需要具体的环境、奖励、状态概率分布的模型; B、需等到一个episode结束才能更新; C、是无偏估计; D、可以只估计一部分我们关心的状态或一个子空间 发布时间:2025-07-14 16:18:10