저번 강의 내용을 복습하자. 우리 목표는 해당 신경망에 FrozenLake의 현재 상태를 입력할 때, 최적의 행동을 출력하게 만드는 것이다.

그런데 MNIST 손글씨와 Fashion MNIST 경우와 달리 강화학습에서는 학습시킬 정답 데이터가 존재하지 않는다. 그렇다면 어떻게 강화학습에서 신경망을 학습시킬 수 있을까?

강화학습 1강 이론에서 살핀 식이 다시 나왔다. 이 식을 DQN 에 접목해보자.

우리가 설계한 신경망은 상태 S 를 넣었을 때, 각 액션의 보상값인 Q(S, A)를 리턴하는 것이다. 그렇다면 이 신경망을 어떻게 학습시킬 것인가?

혹시 식에 답이 있다는 것이 느껴지는가? 해당 식은 맨 좌측에 있는 괄호 식을 학습률에 따라 조금씩 반영시켜서..........