强化学习算法与实现,Simulink培训学校,Hyowinner校长,随着时代发展,电子软件工程师从最早的单片机,到MBD软件设计,AutoSARS架构,ISO26262功能安全再转移到自动驾驶的感知、决策与控制,仅用了十年左右。如今AI的产品化逐渐普及,在电控方向引入人工智能已成为必然,本课程帮助电子软件工程师迅速转型,以适应时代发展的势头,并尽快抓住走向未来的机会。
目录:
○强化学习基础:
马尔科夫决策过程
贝尔曼方程,贝尔曼期待方程,贝尔曼优化方程
策略评估与策略改进
值函数V迭代与策略函数π迭代以及二者区别
蒙特卡洛学习方法
Q Learning
时序差分学习TD Learning
On Policy VS Off Policy
Explore and Exploite
○强化学习简介:
强化学习架构(环境,代理,决策,状态与动作,迁移与奖励)
强化学习算法分类(Value based, Policy Based, Actor-Critic)
强化学习训练过程(Q Learning, Sarsa, DQN, REINFORCE等)
强化学习示例(AI走迷宫, Cart-Pole, 自动驾驶汽车)
○算法及实例
训练代理规划路径通过《Windy Grid World》
训练代理学习《打壁球》游戏
训练代理在连续环境中平衡Cart-Pole
使用形式化建模方式实现Agent与环境的互动及学习 适用人群:算法工程师,自动驾驶决策控制工程师,AI方向科研者