![](https://t1.daumcdn.net/keditor/emoticon/friends1/large/011.gif)
이번엔 논문 리뷰입니다.
논문제목은 아래와 같습니다.
「Performance Profile of Transformer Fine-Tuning in Multi-GPU Cloud Environments 」
이 논문은 NVIDIA V100 GPU를 최적조건으로 사용하는 방법을 연구한 결과를 포함하고 있다.
총 2가지 환경에서 비교한다.
1)Single vs multi-GPU
2) NV Link vs PCIe
VI. 요약
연구를 통해 얻은 주요 인사이트는 다음과 같다.
- Single GPU일때,
- 연산에서 가장 로드가 많은 부분 : Train 데이터 로드, 역전파 연산
- GPU수를 늘릴수록 연산 소요시간이 단축됨.
- Train 데이터 로드에는 시스템 메모리 용량이 가용한대로 2~4개의 데이터로더를 사용하는 것이 좋다.
- Multi-GPU일때
- PCIe환경일때, Optimizer가 성능의 가장 큰 요소이다.
- optimizer의 속도저하를 방지하기 위해서는 충분한 GPU메모리가 필요함
- NCCL의 파라미터 조정은 single,multi 모든 환경에서 도움이 되지 않는다.
- Multi GPU에서는 GPU가 증가할수록 보틀넥이 발생한다.
- NVLink는 Single, multi 모든 조건에서 PCIe 보다 더 뛰어나다.
성능평가는 4가지 과정을 기준으로 측정한다
- Train Data Load
- Forward
- Backword
- model update
환경 셋업
- PyTorch Lighting의 profiler 기능을 사용
- GPU와 CPU사용량을 체크
'Computer Science > 하드웨어' 카테고리의 다른 글
GPU H100 - Transformer Engine - 03.성능최적화 (0) | 2023.07.28 |
---|---|
GPU H100 - Transformer Engine - 02.적용하는법/ Docs review(Getting Started) (0) | 2023.07.28 |
GPU H100 Transformer engine - 01. 작동원리 (0) | 2023.07.27 |