[RL] Introduction to Reinforcement Learning
최근 강화학습 스터디를 시작하면서 블로그를 다시 작성해보려고 한다. 개발 블로그를 열심히 적어보려고 했었지만, 뭔가 나 스스로가 내용 정리가 안되는 느낌이라 포스팅을 하기 쉽지 않았지만, 일단 올려놓고 생각하려고 쓰게 되었다. LLM을 공부하면서 PPO, DPO 같은 강화학습 방법론이 적용되는 것을 보고 강화학습을 처음 알게 되었지만, 논문을 읽어봐도 뭔가 잘 와닿지 않아 스터디를 시작하게 되었다. 참고한 자료는 아래와 같다. - Huggingface Deep RL Course- RL Course by David Silver- 팡요랩 강화학습 처음에는 Huggingface의 Deep RL Course의 수료증 획득을 위해 공부를 시작했지만, 개념이 너무 많이 나오고 구체적인 설명과 예시가 부족해서 이해..