multi node1 [Ubuntu 18.04] Docker를 이용하여 Horovod 설치하기 _ NAMU Horovod는 openMPI를 기반으로 더 나은 멀티GPUs, 멀티Nodes 환경으로 딥러닝 모델을 훈련시키기 위해 개발되었습니다. 이때 '더 나은' 이라는 말은 코드 생산성, 성능(정확도,Loss), 훈련 효율(걸리는 시간)을 복합적으로 고려한 수식어이며 Horovod의 작동 방식과 Benchmark에 대한 디테일한 내용을 알고 싶다면 여기를 참조하시면 될 것 같습니다. 이 문서는 Docker를 이용한, 2개 이상의 서버를 이용하여 훈련이 가능한 Horovod 설치를 다룹니다. 만약 Docker를 다루는 것이 처음이거나, Docker의 컨셉, 기초 사용법을 잘 모른다면, 이 링크의 영상을 시청하는 걸 추천드립니다. 영상이 좀 길지만 직관적으로 설명을 잘 해줍니다. 만약 영상이 너무 길다면, 밑의 설명.. 2020. 8. 8. 이전 1 다음