相关题库

咨询

其他联系方式

所属系列课程

评价

强化学习算法与实现,Simulink培训学校,Hyowinner校长,随着时代发展,电子软件工程师从最早的单片机,到MBD软件设计,AutoSARS架构,ISO26262功能安全再转移到自动驾驶的感知、决策与控制,仅用了十年左右。如今AI的产品化逐渐普及,在电控方向引入人工智能已成为必然,本课程帮助电子软件工程师迅速转型,以适应时代发展的势头,并尽快抓住走向未来的机会。 目录: ○强化学习基础: 马尔科夫决策过程 贝尔曼方程,贝尔曼期待方程,贝尔曼优化方程 策略评估与策略改进 值函数V迭代与策略函数π迭代以及二者区别 蒙特卡洛学习方法 Q Learning 时序差分学习TD Learning On Policy VS Off Policy Explore and Exploite ○强化学习简介: 强化学习架构(环境,代理,决策,状态与动作,迁移与奖励) 强化学习算法分类(Value based, Policy Based, Actor-Critic) 强化学习训练过程(Q Learning, Sarsa, DQN, REINFORCE等) 强化学习示例(AI走迷宫, Cart-Pole, 自动驾驶汽车) ○算法及实例 训练代理规划路径通过《Windy Grid World》 训练代理学习《打壁球》游戏 训练代理在连续环境中平衡Cart-Pole 使用形式化建模方式实现Agent与环境的互动及学习 适用人群:算法工程师,自动驾驶决策控制工程师,AI方向科研者