H100 GPU - PCIe vs SXM_[Performance Profile of Transformer Fine-Tuning in Multi-GPU Cloud Environments]

2023. 8. 1. 17:43·Computer Science/하드웨어

이번엔 논문 리뷰입니다.

논문제목은 아래와 같습니다.

「Performance Profile of Transformer Fine-Tuning in Multi-GPU Cloud Environments 」

 

이 논문은 NVIDIA V100 GPU를 최적조건으로 사용하는 방법을 연구한 결과를 포함하고 있다.

총 2가지 환경에서 비교한다.

1)Single vs multi-GPU

2) NV Link vs PCIe 

 

VI. 요약

연구를 통해 얻은 주요 인사이트는 다음과 같다.

  1. Single GPU일때,
    • 연산에서 가장 로드가 많은 부분 : Train 데이터 로드, 역전파 연산
    • GPU수를 늘릴수록 연산 소요시간이 단축됨.
    • Train 데이터 로드에는 시스템 메모리 용량이 가용한대로 2~4개의 데이터로더를 사용하는 것이 좋다.
  2. Multi-GPU일때
    • PCIe환경일때, Optimizer가 성능의 가장 큰 요소이다.
    •  optimizer의 속도저하를 방지하기 위해서는 충분한 GPU메모리가 필요함
    • NCCL의 파라미터 조정은 single,multi 모든 환경에서 도움이 되지 않는다.
    • Multi GPU에서는 GPU가 증가할수록 보틀넥이 발생한다. 
  3. NVLink는 Single, multi 모든 조건에서 PCIe 보다 더 뛰어나다. 

 

 

성능평가는 4가지 과정을 기준으로 측정한다

  • Train Data Load
  • Forward
  • Backword
  • model update

 

환경 셋업

  • PyTorch Lighting의 profiler 기능을 사용 
  • GPU와 CPU사용량을 체크 

'Computer Science > 하드웨어' 카테고리의 다른 글

GPU H100 - Transformer Engine - 03.성능최적화  (0) 2023.07.28
GPU H100 - Transformer Engine - 02.적용하는법/ Docs review(Getting Started)  (0) 2023.07.28
GPU H100 Transformer engine - 01. 작동원리  (0) 2023.07.27
'Computer Science/하드웨어' 카테고리의 다른 글
  • GPU H100 - Transformer Engine - 03.성능최적화
  • GPU H100 - Transformer Engine - 02.적용하는법/ Docs review(Getting Started)
  • GPU H100 Transformer engine - 01. 작동원리
버터젤리
버터젤리
  • 버터젤리
    across the universe
    버터젤리
  • 전체
    오늘
    어제
    • 분류 전체보기 (126)
      • 데이터 엔지니어 (0)
        • MLOPs (0)
      • 인프라 및 클라우드 (0)
        • Docker (0)
        • Kubernetes (0)
      • Development(개발) (1)
        • Django (0)
        • 개발 Core (1)
      • LLM (4)
        • 강화학습 (0)
        • LLM (4)
        • Generator (0)
      • PM (7)
        • IT Trends (0)
        • 세미나 후기 (7)
      • Deep learning (30)
        • 기초이론 (8)
        • 컴퓨터비전 (6)
        • 자연어처리 (5)
        • Anomaly Detection (6)
      • Machine learning (25)
      • Computer Science (26)
        • Linux (21)
        • 네트워크 (1)
        • 하드웨어 (4)
        • 운영체제(OS) (0)
      • 프로그래밍 언어 (17)
        • Python (8)
        • Pytorch (8)
        • Tensorflow (0)
      • Tools (14)
        • 주피터노트북 (7)
        • 깃(Git) (2)
        • 파이참 (5)
      • Book (1)
      • LIFE (0)
      • 창고 (0)
        • AI 인턴 (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    객체지향의사실과오해
    역할과책임
    객체지향
    역할
    jupyer notebook
    batch normalization
    리눅스#파일이동#특정이름#포함
    데코레이터
    BatchNormalization
    BN
    #git#github
    nohup
    객사오
    책임
    백그라운드
    @
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
버터젤리
H100 GPU - PCIe vs SXM_[Performance Profile of Transformer Fine-Tuning in Multi-GPU Cloud Environments]
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.