强化学习用于提高策略网络(Policy Network)的效果时,需要将输赢作为奖励和惩罚。()。A.正确B.错误 强化学习用于提高策略网络(Policy Network)的效果时,需要将输赢作为奖励和惩罚。()。A、正确B、错误 发布时间:2024-12-23 18:33:02