Sorry, your browser cannot access this site
This page requires browser support (enable) JavaScript
Learn more >

前言

强化学习是一类算法, 是让计算机实现从一开始什么都不懂, 脑袋里没有一点想法, 通过不断地尝试, 从错误中学习, 最后找到规律, 学会了达到目的的方法。

那计算机通过什么来学习呢?

原来计算机也需要一位虚拟的老师, 这个老师比较吝啬, 他不会告诉你如何移动, 如何做决定, 他为你做的事只有给你的行为打分, 那我们应该以什么形式学习这些现有的资源, 或者说怎么样只从分数中学习到我应该怎样做决定呢? 很简单, 我只需要记住那些高分, 低分对应的行为, 下次用同样的行为拿高分, 并避免低分的行为。

所以说,强化学习具有分数导向性。

一些决策性的问题适合用强化学习。

常用RL方法:

Model-Free RL

Q Learning

Sarsa

Model-Based RL

Q-Learning

关键在于Q表

评论