파이썬 시간측정 방법, 코드 , 주피터노트북 %%time
·
Computer Science/주피터노트북
https://bio-info.tistory.com/143 [Python] Python 코드 실행시간 측정 4가지 방법 (feat. Jupyter Notebook) Contents 1. 배경 파이썬으로 코드를 짜다보면, 코드가 엄청 오래 걸린다고 느낄 때가 있습니다. 그럴 때 함수 별로, 혹은 코드별로 걸리는 시간을 측정해 병목현상을 해결할 수 있습니다. python 라 bio-info.tistory.com
[파일] 파일용량 확인, 파일 삭제
·
Computer Science/Linux
du -sh ./* |sort -rh du -sh ./* 명령어에서 s와 h는 다음과 같은 옵션을 나타냅니다: -s 옵션: "summarize" 또는 "합계"를 의미합니다. 이 옵션은 각 파일 및 디렉토리의 용량을 개별적으로 표시하는 대신, 모든 항목의 총 용량을 요약하여 표시합니다. 따라서 디렉토리 내용을 합산한 총 용량만을 보여줍니다. -h 옵션: "human-readable" 또는 "사람이 읽기 쉬운 형식"을 의미합니다. 이 옵션을 사용하면 파일 및 디렉토리의 용량을 바이트 단위 대신에 KB(킬로바이트), MB(메가바이트) 또는 GB(기가바이트) 등과 같은 사람이 이해하기 쉬운 형식으로 표시합니다. 따라서 du -sh ./* 명령어는 현재 디렉토리(.) 아래에 있는 모든 파일 및 디렉토리의 용량을 ..
[passwd] 리눅스, 우분투 계정 비밀번호 변경하기
·
Computer Science/Linux
passwd [계정명] 암호입력 새암호 입력 계정 권한에 따라 sudo passwd [계정명] 으로 실행
nohup으로 jupyter notebook 터미널 창 닫혀도 접속하기( 세션 끊김,백그라운드 실행)
·
Computer Science/주피터노트북
STEP 01. nohup설치하기 nohup은 Linux 기본으로 제공되므로, 별도로 설치할 필요가 없습니다. 설치확인 명령어 : nohup --version STEP 02 nohup으로 Jupyter notebook 켜놓기 실행하는 명령어는 간단하다 nohup [주피터 실행 명령어] Tip: 회사 컴퓨터로 실행하고 집에서 접속해서 사용하고 싶다. → 외부로 접속할 수 있도록 IP와 외부 포트를 설정해야함.(여기선 생략, 가능하다는 것만 알아두자) 아는사람은 아래와 같이 실행하면 된다. nohup jupyter notebook --ip=0.0.0.0 --port=[외부포트] --no-browser --NotebookApp.token=[토큰값] ip=0.0.0.0 : 외부 IP 넣는거 아님. 누구라도 0...
H100 GPU - PCIe vs SXM_[Performance Profile of Transformer Fine-Tuning in Multi-GPU Cloud Environments]
·
Computer Science/하드웨어
이번엔 논문 리뷰입니다. 논문제목은 아래와 같습니다. 「Performance Profile of Transformer Fine-Tuning in Multi-GPU Cloud Environments 」 이 논문은 NVIDIA V100 GPU를 최적조건으로 사용하는 방법을 연구한 결과를 포함하고 있다. 총 2가지 환경에서 비교한다. 1)Single vs multi-GPU 2) NV Link vs PCIe VI. 요약 연구를 통해 얻은 주요 인사이트는 다음과 같다. Single GPU일때, 연산에서 가장 로드가 많은 부분 : Train 데이터 로드, 역전파 연산 GPU수를 늘릴수록 연산 소요시간이 단축됨. Train 데이터 로드에는 시스템 메모리 용량이 가용한대로 2~4개의 데이터로더를 사용하는 것이 좋다. ..
GPU H100 - Transformer Engine - 03.성능최적화
·
Computer Science/하드웨어
Performance Optimizations TE엔진 사용법에 이어서 최적화하는 방법이다. GPT encoder Layer를 기준으로 소개한다. quickstart_utils.py 의 함수를 사용해서 적용해보자. import torch import transformer_engine.pytorch as te from transformer_engine.common.recipe import Format, DelayedScaling import quickstart_utils as utils # Layer configuration hidden_size = 4096 sequence_length = 2048 batch_size = 4 ffn_hidden_size = 16384 num_attention_heads =..
GPU H100 - Transformer Engine - 02.적용하는법/ Docs review(Getting Started)
·
Computer Science/하드웨어
Getting Started Overview Transformer Engine (TE)을 사용하는 이유 FP8 지원 → 더 낮은 메모리 사용량 Transformer 아키텍처 지원 정밀도(Precision)를 유지하는 솔루션을 자동으로 적용되도록 구현 기존 DL 프레임워크와의 호환성 독립적인 C++ API도 지원함 Let's build a Transformer Layer! 우리는 일반 PyTorch 모듈을 사용하여 기본 트랜스포머 계층을 구축한다. 이는 추후 트랜스포머 엔진과의 비교를 위한 기준이 될 것입니다. 먼저 일반 PyTorch를 사용하여 GPT 인코더 계층을 생성합니다. 그림 1은 전체적인 구조를 보여준다. 모델 구성 요소별 사용한 Pytorch 라이브러리: LayerNorm : torch.nn...
GPU H100 Transformer engine - 01. 작동원리
·
Computer Science/하드웨어
※본포스팅은 Nvidia Transformer Engine Docs를 참고했습니다. Transformer Engine으로 FP8 사용하기 H100에서는 FP8(8-bit floating point) 형식을 지원한다 Introduction to FP8 H100에서 두 가지 FP8 형식을 지원한다. 1) E4M3 - +/- 448 2) E5M2 - +/- 57344 Dynamic Range가 넓지만 정확도가 떨어짐. Forward pass - E4M3 방식 사용 , weight 값을 계산 → 정확도 중요 Backward pass - E5M2 방식 사용, Gradient 값 계산 → 넓은 Dynamic Range 필요 Mixed Precision Training FP16 작동방법을 통해서 FP8 작동 방식 이..