티스토리 뷰
1. E-Greedy Algorithm(입실론 그리디 알고리즘)이란?
[ Greedy Algorithm(그리디 알고리즘) ]
Greedy Algorithm은 미래를 생각하지 않고 각 단계에서 가장 최선의 선택을 하는 기법이다. 즉, 각 단계에서 최선의 선택을 한 것이 전체적으로도 최선이길 바라는 알고리즘이다. 물론 당연히 미래의 가치를 고려하지 않기 때문에 항상 최선의 결과를 반환하지는 않는다.
예를 들어 주사위 3개를 굴린 결과가 아래와 같고, 가장 높은 숫자를 반환할 주사위를 선택한다고 가정하자.
-
주사위1: 5
-
주사위2: 3
-
주사위3: 1
-
주사위4: 6
Greedy Algorithm에 따르면 우리는 주사위 4를 선택해야한다. 하지만 다음에 주사위4를 골라도 최상의 결과가 반환될 것이라는 확신을 가질수는 없는데, 그러한 이유는 이 주사위를 한번씩 테스트했기 때문이다. 즉, 탐험(Exploration)이 충분히 이루어지지 않았기 때문이다.
[ Greedy Algorithm(그리디 알고리즘) 한장 요약 ]
[ E-Greedy Algorithm(입실론 그리디 알고리즘) ]
탐험이 부족했던 Greedy Algorithm을 개선시킨 전략으로, 일정한 확률로 랜덤으로 주사위를 선택하도록 하는 것이다. 예를 들어 일정한 확률을 위한 도구로 동전을 사용한다고 할 때, 동전의 앞면이 나오면 랜덤으로 주사위를 선택하고 동전의 뒷면이 나오면 이전에 최선의 결과를 냈던 주사위를 선택하는 것이다. 이러한 알고리즘은 Epsilon-Greedy(E-Greedy) 알고리즘이라고 부르며, 판단을 위해 사용된 동전의 앞면이 나올 확률 50%는 Epsilon이라는 HyperParameter가 된다. Epsilon이라는 HyperParameter는 0~1 사이의 변수로, 위의 예제에서는 e가 0.5에 해당되며 50%의 확률로는 주사위 6을 선택하고, 50%의 확률로는 무작위로 주사위를 선택하게 된다.
[ E-Greedy Algorithm(입실론 그리디 알고리즘) 한장 요약 ]
참고 자료
'인공지능' 카테고리의 다른 글
[논문번역] Deep Reinforcement Learning with Double Q-learning 논문 설명/요약 (4) | 2020.02.12 |
---|---|
[논문번역] Playing Atari with Deep Reinforcement Learning 논문 설명/요약 (2) | 2020.02.10 |
마르코프 의사결정 모델(MDP)이란? (0) | 2020.02.09 |
Experience Replay Memory란? (0) | 2020.02.09 |
Stochastic Gradient Descent(SGD)란? (0) | 2020.02.09 |