1. 마르코프 의사결정 모델이란? [ 마르코프 의사결정 모델 ] 인공지능이 학습하고자 하는 방법을 공식화해서 추론하는 것은 매우 중요한 모델로, 학습을 위해 마르코프 의사결정 모델을 주로 사용합니다. 예를 들어 벽돌깨기 게임을 한다고 가정할 때, 여기서 Environment(환경)은 벽돌깨기가 되고, 그 환경은 바의 위치, 공의 방향과 위치, 모든 벽돌의 존재유무 등 다양한 State(상태)를 같습니다. 그리고 Agent는 환경안에서 바를 왼쪽 또는 오른쪽으로 옮기는 것과 같은 특정한 Action(행동)을 하게 되고, 때로는 이러한 행동들의 결과로 점수라는 Reward(보상)를 받게됩니다. Action들은 Environment에 변화를 일으키고, State값이 변하게 되어, Agent가 또 다른 Acti..
1. Experience Replay Memory란? [ Experience Replay Memory ] 머신러닝에서 학습 데이터가 아래와 같다고 하자. 전체 데이터의 분포를 보면 a가 정답에 가장 근접한 직선이지만, b근처의 데이터만으로 학습을 진행한다고 하면 b가 정답에 가장 가까운 직선이 된다. 이를 통해 고르게 분포된 데이터를 사용해야 정답에 근접한 직선을 찾을 수 있음을 알 수 있다. 하지만 DL은 data와 label이 존재하기 때문에 random하게 데이터를 추출하여 correlation을 줄일 수 있지만, RL은 환경과 상호작용하는 data가 들어오기 때문에 b처럼 correlated 되는 데이터가 학습될 수 있습니다. 이를 해결하기 위해 거대한 Experience Replay Memory..
1. Stochastic Gradient Descent(SGD)란? [ Stochastic Gradient Descent ] Neural Network의 Weight를 조정하는 과정에는 보통 Gradient Descent라는 방법을 사용한다. 이는 네트워크의 Parameter들을 $\theta$ 라고 했을 때, 네트워크에서 내놓는 결과값과 실제 값 사이의 차의를 정의하는 Loss Function의 값을 최소화하기 위해 기울기를 이용하는 것입니다. Gradient Descent에서는 Loss Function의 값을 최소화하는 $\theta$ 값을 찾는 것으로 기울기의 반대 방향으로 일정 크기만큼 이동하는 것을 반복한다. 이 Iteration에서 $\theta$의 변화 식은 아래와 같다. $$\theta =..
1. Model-Free Algorithm이란? [ Model-Free Algorithm ] 기존의 Model-Based Algorithm에서 Model은 MDP에서의 Transition Model을 의미한다. 즉, 어떤 상태에서 어떤 행동을 한다고 했을 때, 다음의 상태가 될 확률을 의미한다. 예를 들어 격자 공간 속의 로봇이 상하좌우로 이동을 할 때, 우리는 로봇의 다음 상태에 대해 직관적으로 파악할 수 있다. 이렇게 환경에 대해 알고 있으며, 우리의 행동에 따른 환경의 변화를 아는 알고리즘을 Model-Based Algorithm이라고 한다. Model-Free Algorithm은 Agent가 Action을 통해 Expected sum of future reward를 최대로 하는 Policy Fun..
1. CNN(Convolutional Neural Network)란? [ CNN(Convolutional Neural Network) ] CNN(Convolutional Neural Network)은 합성곱연산을 사용하는 ANN(Artificial Neural Network, 인공 신경망)의 한 종류로, 합성곱(Convolution)을 사용하면 3차원 데이터의 공간적 정보를 유지한 채 다음 레이어로 보낼 수 있다. 여기서 합성곱이란 이미지 내에서 Feature를 뽑기 위한 연산으로 이해를 하면 되는데, 이미지를 기준으로 합성곱을 구하는 것에 대해 설명하도록 하겠다. 위와 같은 Input Image에 대해 Feature Detector(Filter or Kernel)를 기준으로 합성곱을 한다고 하면, 모든..