深度学习中sarsa算法和Q-learning算法的区别

发布网友发布时间：2022-05-12 20:03

共2个回答

热心网友时间：2023-07-27 23:47

每每看到胡说八道的就忍不住怒答一波，虽然我可能表述不清晰

sarsa-learning q-learning都是reinforcement learning中用来解决MDP最优化值函数问题的temporal-difference方法，跟DL没啥卵关系，虽然RL可以深度化

区别在于，在更新Q(S_t, A_t)时，前者Q(S_t+1)的动作A_t+1通过episinon-greedy确定，而后者的A_t+1通过greedy确定；共同点在于S_t选择动作的策略是一样的（episinon-greedy）

episinon-greedy 是一种策略, 比如 epsilon = 0.9 时, 就说明0.9的概率我会按照 Q 表的最优值选择行为, 0.1的概率使用随机选行为. 简单来说，就是在更新Q时，sarsa以概率episinon选择S_t+1状态的最大动作值函数，q-learning直接选最大

热心网友时间：2023-07-27 23:47

用路由表为数据传输选择路径，路由表包含网络地址以及各地址之间距离的清单，路由器利用路由表查找数据包从当前位置到目的地址的正确路径，路由器使用最少时间算法或最优路径算法来调整信息传递的路径。路由器是产生于交换机之后，就像交换机产生于集线器之后，所以路由器与交换机也有一定联系，并不是完全独立的两种设备。路由器主要克服了交换机不能向路由转发数据包的不足。

交换机、路由器是一台特殊的网络计算机，它的硬件基础