相关题库

咨询

其他联系方式

所属系列课程

评价

使用协议与隐私政策

感谢您使用网易云课堂!

为了更好地保障您的个人权益,请认真阅读《使用协议》《隐私政策》《服务条款》的全部内容,同意并接受全部条款后开始使用我们的产品和服务。若不同意,将无法使用我们的产品和服务。

同意
强化学习算法与实现,Simulink培训学校,Hyowinner校长,随着时代发展,电子软件工程师从最早的单片机,到MBD软件设计,AutoSARS架构,ISO26262功能安全再转移到自动驾驶的感知、决策与控制,仅用了十年左右。如今AI的产品化逐渐普及,在电控方向引入人工智能已成为必然,本课程帮助电子软件工程师迅速转型,以适应时代发展的势头,并尽快抓住走向未来的机会。 目录: ○强化学习基础: 马尔科夫决策过程 贝尔曼方程,贝尔曼期待方程,贝尔曼优化方程 策略评估与策略改进 值函数V迭代与策略函数π迭代以及二者区别 蒙特卡洛学习方法 Q Learning 时序差分学习TD Learning On Policy VS Off Policy Explore and Exploite ○强化学习简介: 强化学习架构(环境,代理,决策,状态与动作,迁移与奖励) 强化学习算法分类(Value based, Policy Based, Actor-Critic) 强化学习训练过程(Q Learning, Sarsa, DQN, REINFORCE等) 强化学习示例(AI走迷宫, Cart-Pole, 自动驾驶汽车) ○算法及实例 训练代理规划路径通过《Windy Grid World》 训练代理学习《打壁球》游戏 训练代理在连续环境中平衡Cart-Pole 使用形式化建模方式实现Agent与环境的互动及学习 适用人群:算法工程师,自动驾驶决策控制工程师,AI方向科研者
手机课堂
下载App
返回顶部