发布网友 发布时间:2022-05-12 20:03
共2个回答
热心网友 时间:2023-07-27 23:47
每每看到胡说八道的就忍不住怒答一波,虽然我可能表述不清晰
sarsa-learning q-learning都是reinforcement learning中用来解决MDP最优化值函数问题的temporal-difference方法,跟DL没啥卵关系,虽然RL可以深度化
区别在于,在更新Q(S_t, A_t)时,前者Q(S_t+1)的动作A_t+1通过episinon-greedy确定,而后者的A_t+1通过greedy确定;共同点在于S_t选择动作的策略是一样的(episinon-greedy)
episinon-greedy 是一种策略, 比如 epsilon = 0.9 时, 就说明0.9的概率我会按照 Q 表的最优值选择行为, 0.1的概率使用随机选行为. 简单来说,就是在更新Q时,sarsa以概率episinon选择S_t+1状态的最大动作值函数,q-learning直接选最大
热心网友 时间:2023-07-27 23:47
用路由表为数据传输选择路径,路由表包含网络地址以及各地址之间距离的清单,路由器利用路由表查找数据包从当前位置到目的地址的正确路径,路由器使用最少时间算法或最优路径算法来调整信息传递的路径。路由器是产生于交换机之后,就像交换机产生于集线器之后,所以路由器与交换机也有一定联系,并不是完全独立的两种设备。路由器主要克服了交换机不能向路由转发数据包的不足。