본문 바로가기

reinforcementlearning2

[RL] Overview RL은 ML(Machine Learning)의 한 종류로 agent가 어떤 environment에서 어떤 action을 했을 때, 그것이 올바른 action인지를 나중에 판단하여 reward를 받는 과정을 반복하여 스스로 학습을 하는 방법입니다. 결국, RL은 순차적으로 action을 계속해서 결정해야 하는 문제를 푸는 것이라 할 수 있고, MDP는 이런 문제를 수학적으로 표현한 것입니다. Policy는 모든 state에서 agent가 해야 할 action을 결정합니다. Agent가 RL을 통해 학습해야 할 것은 여러 정책 중 optimal policy입니다. Optimal policy는 각 state에서 단 하나의 action만을 선택합니다. 하지만, 학습 시에는 하나의 action을 선택하기 보다는 .. 2021. 5. 22.
[RL] Reinforcement Learning Problem RL(Reinforcement Learning)에서 Agent는 Policy에 따라 어떤 Environment에서 특정 Action을 합니다. Action에 따라 State가 바뀌고, 바뀐 state에 따라 Reward를 받습니다. 따라서, RL은 가장 좋은 policy를 찾는 것이 목적이고, 가장 좋은 policy는 reward를 최대로 만듭니다. Markov Chain Markov Property Markov Property는 확률 과정의 특수한 형태로서, 메모리를 가지고 있지 않다는 특성이 있습니다. 즉, Markov Property를 가진다면 현재 state는 바로 이전 state에만 영향을 받습니다. 다시 말해, 현재 state를 알면 미래 state를 추론할 수 있고, 미래의 state는 현재.. 2021. 5. 9.