问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

深度学习中sarsa算法和Q-learning算法的区别

发布网友 发布时间:2022-05-12 20:03

我来回答

2个回答

热心网友 时间:2023-07-27 23:47

每每看到胡说八道的就忍不住怒答一波,虽然我可能表述不清晰

sarsa-learning q-learning都是reinforcement learning中用来解决MDP最优化值函数问题的temporal-difference方法,跟DL没啥卵关系,虽然RL可以深度化

区别在于,在更新Q(S_t, A_t)时,前者Q(S_t+1)的动作A_t+1通过episinon-greedy确定,而后者的A_t+1通过greedy确定;共同点在于S_t选择动作的策略是一样的(episinon-greedy)

episinon-greedy 是一种策略, 比如 epsilon = 0.9 时, 就说明0.9的概率我会按照 Q 表的最优值选择行为, 0.1的概率使用随机选行为. 简单来说,就是在更新Q时,sarsa以概率episinon选择S_t+1状态的最大动作值函数,q-learning直接选最大

热心网友 时间:2023-07-27 23:47

用路由表为数据传输选择路径,路由表包含网络地址以及各地址之间距离的清单,路由器利用路由表查找数据包从当前位置到目的地址的正确路径,路由器使用最少时间算法或最优路径算法来调整信息传递的路径。路由器是产生于交换机之后,就像交换机产生于集线器之后,所以路由器与交换机也有一定联系,并不是完全独立的两种设备。路由器主要克服了交换机不能向路由转发数据包的不足。

交换机、路由器是一台特殊的网络计算机,它的硬件基础
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
洗澡被偷拍该如何维权呢? 照片被别人用于网上嫖娼怎么维权 被偷拍怎么维权 带“坤”的诗句 乾端坤倪意思和来源是什么 水瓶座男最配什么星座 客厅里为什么有臭味 做糖炒栗子还没熟该怎么补救 抽油烟机一开防盗门的风很大怎么解决? 微信墙签到系统 分红保险分配给保户的保单红利来源于保单盈余,而保单盈余的来源包括( )等A.利差益B excel的一列里面有合并的单元格,和没有合并的单元格,怎么排序呢? 白居易的故事? 白居易有哪些经历? 呃。。白居易的一生经历和小故事及代表作有什么。= = 白居易的生平故事 白居易的生平故事概述是什么? 作者白居易经历过什么? 白居易的一生可以分为哪几个阶段 白居易的一生经历了哪些风风雨雨?他的婚姻生活是怎样的? 适合小学生全班表演的节目 辽宁新闻回放怎么看 沈阳直播生活7月1日的视频,上哪看啊,谁能告诉我 怎么双面打印 世界上叫王翌曈的一共有几个人? 如何提高懂你英语的平均得分? 英语派对可以做什么节目 流利说素质课怎么买 流利说A+ 返2000怎么不早说 英语流利说的配音作品怎么设置仅自己可见 qlearning和传统路由算法的区别 q-learning收敛 网贷会通过什么方式和你联系贷款? reinforcement learning和deep learning的区别 华为的老板是谁 “华为老板叫什么名? 怎样让电机通电后慢慢平缓启动 直流电机如何实现慢速启动 电机缝纫机启动很慢,有时候要几分钟,求大神指点,什么原因。 单相电机通电后缓慢转动,不能正常启动什么原因 为什么开网页很慢但是玩游戏看电影一点都不卡 母鸡早上打鸣吗?做梦梦到母鸡打鸣… 我的支付宝领红包码自己没开通,让别人开通了怎么办 手指粗大的人,哪些方法能让手指也能变得纤细修长? 手指很粗怎么办让它变细 vivo怎么恢复以前的版本 怎么才能不使用Android版本 vivox3s更新了最新系统怎么还原上一个系统 vivox710手机怎么恢复以前版本 我了解到的有些公司鼓励员工参与测试认证,如果通过的话则公司报销考试费用。大家在的公司都怎么做培训? 哪个地方能够培训EN473/ISO9712无损检测资格证的?