최근 강화학습 스터디를 시작하면서 블로그를 다시 작성해보려고 한다. 개발 블로그를 열심히 적어보려고 했었지만, 뭔가 나 스스로가 내용 정리가 안되는 느낌이라 포스팅을 하기 쉽지 않았지만, 일단 올려놓고 생각하려고 쓰게 되었다. LLM을 공부하면서 PPO, DPO 같은 강화학습 방법론이 적용되는 것을 보고 강화학습을 처음 알게 되었지만, 논문을 읽어봐도 뭔가 잘 와닿지 않아 스터디를 시작하게 되었다. 참고한 자료는 아래와 같다. - Huggingface Deep RL Course- RL Course by David Silver- 팡요랩 강화학습 처음에는 Huggingface의 Deep RL Course의 수료증 획득을 위해 공부를 시작했지만, 개념이 너무 많이 나오고 구체적인 설명과 예시가 부족해서 이해..
GPU 연결에 따라 총 모델 훈련 시간이 차이가 난다! NVLink로 연결되어 있는 GPU가 가장 inter-connected 하다. NVLink는 기존의 PCI-E 기반 솔루션보다 더욱 유연한 통신을 제공하는 고속 GPU 연결 장치이다. 확인 방법: GPU가 같은 노드에 있을 때 아래와 같이 실행하면 GPU가 어떻게 inter-connected 되는지 보여줌 nvidia-smi topo -m NVLink로 연결되어 있는 GPU들: GPU0 GPU1 CPU Affinity NUMA Affinity GPU0 X NV2 0-23 N/A GPU1 NV2 X 0-23 N/A NVLink로 연결되어 있지 않은 GPU들: GPU0 GPU1 CPU Affinity NUMA Affinity GPU0 X PHB 0-11..