24. 什么是强化学习?

强化学习并不是某⼀种特定的算法,⽽是⼀类算法的统称。

如果⽤来做对⽐的话,他跟监督学习,⽆监督学习 是类似的,是⼀种统称的学习⽅式。

强化学习算法的思路⾮常简单,以游戏为例,如果在游戏中采取某种策略可以取得较⾼的得分,那么就进⼀步「强化」这种策略,以期继续取得较好的结果。这种策略与⽇常⽣活中的各种「绩效奖励」⾮常类似。我们平时也常常⽤这样的策略来提⾼⾃⼰的游戏⽔平。

在 Flappy bird 这个游戏中,我们需要简单的点击操作来控制⼩⻦,躲过各种⽔管,⻜的越远越好,因为⻜的越远就能获得更⾼的积分奖励。这就是⼀个典型的强化学习场景:

  • 机器有⼀个明确的⼩⻦⻆⾊——代理
  • 需要控制⼩⻦⻜的更远——⽬标
  • 整个游戏过程中需要躲避各种⽔管——环境
  • 躲避⽔管的⽅法是让⼩⻦⽤⼒⻜⼀下——⾏动
  • ⻜的越远,就会获得越多的积分——奖励

你会发现,强化学习和监督学习、⽆监督学习 最⼤的不同就是不需要⼤量的“数据喂养”。⽽是通过⾃⼰不停的尝试来学会某些技能

下一节:强化学习⽬前还不够成熟,应⽤场景也⽐较局限。最⼤的应⽤场景就是游戏了。