Computer Science/하드웨어

H100 GPU - PCIe vs SXM_[Performance Profile of Transformer Fine-Tuning in Multi-GPU Cloud Environments]

버터젤리 2023. 8. 1. 17:43

이번엔 논문 리뷰입니다.

논문제목은 아래와 같습니다.

「Performance Profile of Transformer Fine-Tuning in Multi-GPU Cloud Environments 」

 

이 논문은 NVIDIA V100 GPU를 최적조건으로 사용하는 방법을 연구한 결과를 포함하고 있다.

총 2가지 환경에서 비교한다.

1)Single vs multi-GPU

2) NV Link vs PCIe 

 

VI. 요약

연구를 통해 얻은 주요 인사이트는 다음과 같다.

  1. Single GPU일때,
    • 연산에서 가장 로드가 많은 부분 : Train 데이터 로드, 역전파 연산
    • GPU수를 늘릴수록 연산 소요시간이 단축됨.
    • Train 데이터 로드에는 시스템 메모리 용량이 가용한대로 2~4개의 데이터로더를 사용하는 것이 좋다.
  2. Multi-GPU일때
    • PCIe환경일때, Optimizer가 성능의 가장 큰 요소이다.
    •  optimizer의 속도저하를 방지하기 위해서는 충분한 GPU메모리가 필요함
    • NCCL의 파라미터 조정은 single,multi 모든 환경에서 도움이 되지 않는다.
    • Multi GPU에서는 GPU가 증가할수록 보틀넥이 발생한다. 
  3. NVLink는 Single, multi 모든 조건에서 PCIe 보다 더 뛰어나다. 

 

 

성능평가는 4가지 과정을 기준으로 측정한다

  • Train Data Load
  • Forward
  • Backword
  • model update

 

환경 셋업

  • PyTorch Lighting의 profiler 기능을 사용 
  • GPU와 CPU사용량을 체크