强化学习算法与实现

强化学习算法与实现,Simulink培训学校,Hyowinner校长,随着时代发展，电子软件工程师从最早的单片机，到MBD软件设计，AutoSARS架构，ISO26262功能安全再转移到自动驾驶的感知、决策与控制，仅用了十年左右。如今AI的产品化逐渐普及，在电控方向引入人工智能已成为必然，本课程帮助电子软件工程师迅速转型，以适应时代发展的势头，并尽快抓住走向未来的机会。目录： ○强化学习基础：马尔科夫决策过程贝尔曼方程，贝尔曼期待方程，贝尔曼优化方程策略评估与策略改进值函数V迭代与策略函数π迭代以及二者区别蒙特卡洛学习方法 Q Learning 时序差分学习TD Learning On Policy VS Off Policy Explore and Exploite ○强化学习简介：强化学习架构(环境，代理，决策，状态与动作，迁移与奖励) 强化学习算法分类(Value based, Policy Based, Actor-Critic) 强化学习训练过程(Q Learning, Sarsa, DQN, REINFORCE等) 强化学习示例(AI走迷宫, Cart-Pole, 自动驾驶汽车) ○算法及实例训练代理规划路径通过《Windy Grid World》训练代理学习《打壁球》游戏训练代理在连续环境中平衡Cart-Pole 使用形式化建模方式实现Agent与环境的互动及学习适用人群：算法工程师，自动驾驶决策控制工程师，AI方向科研者

扫码下载官方App

目录

相关题库

咨询

所属系列课程

评价

扫码下载官方App

目录

学习过该课程的人还学习过：

相关题库

咨询

所属系列课程

评价