
1. Flowise에 대하여 & LLM 연동 준비하기[ Flowise에 대하여 ]Flowise란 시각적인 인터페이스를 제공하는 오픈 소스 LLM(대형 언어 모델) 워크플로 빌더로, 코드를 작성하지 않고도 다양한 LLM 기반 애플리케이션을 쉽게 구성하고 배포할 수 있도록 설계되어 있다. 예를 들어 우리가 애플리케이션에 LLM을 연동하여 계산기를 만드는 상황이라고 하자. 대부분의 애플리케이션은 연동을 위해 HTTP 프로토콜과 JSON 형태의 자료구조를 사용할 것인데, LLM의 응답은 다음과 같이 대화형인 경우가 많다. 서비스에 JSON 형태로 응답하려면, 위와 같은 응답 형식이 아닌, Key-Value 형태로의 응답 전환 등이 필요한데, Flowise는 이렇듯 서비스에 LLM을 연동하기 위해 필요한 컴포..

오늘 읽고 설명할할 논문은 Deep Reinforcement Learning with Double Q-learning입니다. 이 논문의 선행 논문은 Playing Atari with Deep Reinforcement Learning 입니다. 이 논문을 읽지 않았다면 여기에서 참고하세요! 0. Abstract [ Abstract ] 기존의 Q-Learning Algorithm은 특정 조건에서 action-value를 Overestimate(과평가)한다. => 보상받을 값에 따라서 다음 행동이 결정되는데, 잘못된 행동에 대한 action-value값이 과평가되면 잘못된 방향으로 학습이 진행될 수 있다. 기존의 Q-Learning은 이러한 overestimation때문에 몇몇 게임에서 좋은 성능을 보이지를 못..

0. Abstract [ Abstract ] High-Dimensional Sensory Input으로부터 Reinforcement Learning을 통해 Control Policy를 성공적으로 학습하는 Deep Learning Model을 선보입니다. 이 모델은 Atari는 CNN 모델을 사용하며, 변형된 Q-learning을 사용하여 학습되었습니다. 여기서 Q-learning이란 input이 raw pixels이고, output은 미래의 보상을 예측하는 value function입니다. 실제로 게임을 학습할 때, 스크린의 픽셀값들을 입력으로 받고, 각 행위에 대해 점수를 부여하고, 어떤 행동에 대한 결과값을 함수를 통해 받게 됩니다. 아타리는 2600개가 넘는 다양한 게임을 학습시키는데 동일한 모델과..

1. E-Greedy Algorithm(입실론 그리디 알고리즘)이란? [ Greedy Algorithm(그리디 알고리즘) ] Greedy Algorithm은 미래를 생각하지 않고 각 단계에서 가장 최선의 선택을 하는 기법이다. 즉, 각 단계에서 최선의 선택을 한 것이 전체적으로도 최선이길 바라는 알고리즘이다. 물론 당연히 미래의 가치를 고려하지 않기 때문에 항상 최선의 결과를 반환하지는 않는다. 예를 들어 주사위 3개를 굴린 결과가 아래와 같고, 가장 높은 숫자를 반환할 주사위를 선택한다고 가정하자. 주사위1: 5 주사위2: 3 주사위3: 1 주사위4: 6 Greedy Algorithm에 따르면 우리는 주사위 4를 선택해야한다. 하지만 다음에 주사위4를 골라도 최상의 결과가 반환될 것이라는 확신을 가질수..

1. 마르코프 의사결정 모델이란? [ 마르코프 의사결정 모델 ] 인공지능이 학습하고자 하는 방법을 공식화해서 추론하는 것은 매우 중요한 모델로, 학습을 위해 마르코프 의사결정 모델을 주로 사용합니다. 예를 들어 벽돌깨기 게임을 한다고 가정할 때, 여기서 Environment(환경)은 벽돌깨기가 되고, 그 환경은 바의 위치, 공의 방향과 위치, 모든 벽돌의 존재유무 등 다양한 State(상태)를 같습니다. 그리고 Agent는 환경안에서 바를 왼쪽 또는 오른쪽으로 옮기는 것과 같은 특정한 Action(행동)을 하게 되고, 때로는 이러한 행동들의 결과로 점수라는 Reward(보상)를 받게됩니다. Action들은 Environment에 변화를 일으키고, State값이 변하게 되어, Agent가 또 다른 Acti..