书目信息 |
题名: |
深入浅出强化学习
|
|
作者: | 郭宪 , 宋俊潇 , 方勇纯 著 | |
分册: | ||
出版信息: | 北京 电子工业出版社 2020.03 |
|
页数: | 264页 | |
开本: | 24cm | |
丛书名: | ||
单 册: | ||
中图分类: | TP181 | |
科图分类: | ||
主题词: | 机器学习--ji qi xue xi--算法 | |
电子资源: | ||
ISBN: | 978-7-121-36746-5 |
000 | 01236nam0 2200277 450 | |
001 | 202020139707 | |
005 | 20200926181346.0 | |
010 | @a978-7-121-36746-5@dCNY89.00 | |
100 | @a20200917d2020 em y0chiy50 ea | |
101 | 0 | @achi |
102 | @aCN@b110000 | |
105 | @aa a 000yy | |
106 | @ar | |
200 | 1 | @a深入浅出强化学习@Ashen ru qian chu qiang hua xue xi@e编程实战@f郭宪, 宋俊潇, 方勇纯著 |
210 | @a北京@c电子工业出版社@d2020.03 | |
215 | @a264页@c图@d24cm | |
320 | @a有书目 (第261-262页) | |
330 | @a本书分三大篇介绍了目前强化学习算法中最基本的算法。第一篇为基于值函数的强化学习算法, 该篇介绍了基于两种策略评估方法 (蒙特卡洛策略评估和时间差分策略评估) 的强化学习算法, 进而介绍了如何将函数逼近的方法引入到强化学习算法中。第二篇为直接策略搜索方法, 该篇介绍了最基本的策略梯度方法、基本的AC方法、PPO方法和DDPG算法。第三篇为基于模型的强化学习方法, 该篇介绍了基于mpc的方法, AlphaZero算法基本原理及在五子棋上的具体实现细节。 | |
516 | 1 | @a编程实战@Abian cheng shi zhan |
606 | 0 | @a机器学习@Aji qi xue xi@x算法 |
690 | @aTP181@v5 | |
701 | 0 | @a郭宪@Aguo xian@4著 |
701 | 0 | @a宋俊潇@Asong jun xiao@4著 |
701 | 0 | @a方勇纯@Afang yong chun@4著 |
801 | 0 | @aCN@c20200324 |
905 | @a河南城建学院图书馆@dTP181@eG855 | |
深入浅出强化学习:编程实战/郭宪, 宋俊潇, 方勇纯著.-北京:电子工业出版社,2020.03 |
264页:图;24cm |
ISBN 978-7-121-36746-5:CNY89.00 |
本书分三大篇介绍了目前强化学习算法中最基本的算法。第一篇为基于值函数的强化学习算法, 该篇介绍了基于两种策略评估方法 (蒙特卡洛策略评估和时间差分策略评估) 的强化学习算法, 进而介绍了如何将函数逼近的方法引入到强化学习算法中。第二篇为直接策略搜索方法, 该篇介绍了最基本的策略梯度方法、基本的AC方法、PPO方法和DDPG算法。第三篇为基于模型的强化学习方法, 该篇介绍了基于mpc的方法, AlphaZero算法基本原理及在五子棋上的具体实现细节。 |
● |
相关链接 |
正题名:深入浅出强化学习
索取号:TP181/G855
 
预约/预借
序号 | 登录号 | 条形码 | 馆藏地/架位号 | 状态 | 备注 |
1 | 1489638 | 214896380 | 自科库301/301自科库 35排2列3层/ [索取号:TP181/G855] | 在馆 | |
2 | 1489639 | 214896399 | 自科库301/301自科库 35排2列3层/ [索取号:TP181/G855] | 在馆 |