24. 什么是强化学习？_深度学习 - 让PM全面理解深度学习

24. 什么是强化学习？

强化学习并不是某⼀种特定的算法，⽽是⼀类算法的统称。

如果⽤来做对⽐的话，他跟监督学习，⽆监督学习是类似的，是⼀种统称的学习⽅式。

强化学习算法的思路⾮常简单，以游戏为例，如果在游戏中采取某种策略可以取得较⾼的得分，那么就进⼀步「强化」这种策略，以期继续取得较好的结果。这种策略与⽇常⽣活中的各种「绩效奖励」⾮常类似。我们平时也常常⽤这样的策略来提⾼⾃⼰的游戏⽔平。

在 Flappy bird 这个游戏中，我们需要简单的点击操作来控制⼩⻦，躲过各种⽔管，⻜的越远越好，因为⻜的越远就能获得更⾼的积分奖励。这就是⼀个典型的强化学习场景：

你会发现，强化学习和监督学习、⽆监督学习最⼤的不同就是不需要⼤量的“数据喂养”。⽽是通过⾃⼰不停的尝试来学会某些技能

下一节：强化学习⽬前还不够成熟，应⽤场景也⽐较局限。最⼤的应⽤场景就是游戏了。