[RAG] 논문요약 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Deep learning/LLM
Deep learning/LLM
Deep learning/LLM
ZeRO: Memory Optimization Towards Training A Trillion Parameter Models 리뷰 https://arxiv.org/abs/1910.02054 Abstract 현재 큰 모델을 학습시키는 방법은 매우 제한되어 있다. 메모리가 낭비되거나 연산이 늦어지는 등의 문제점이 존재한다. Data Parallelism은 메모리가 매우 redundant하다. Model Prallelism은 communication 비용이 매우 높아 연산 효율이 안좋다. We develop a novel solution, Zero Redundancy Optimizer (ZeRO), to optimize memory, achieving both memory efficiency and scal..
Deep learning/LLM
Deep learning/자연어처리
Tokenizer BPE - Byte-pair Encoding - 전체 문서를 문자단위로 쪼갠 뒤 빈번하게 나오는 문자를 묶어 단어사전 수를 줄임. '모', '델' 로 나누고 '모델'이 빈번하게 발생하면 '모델'로 붙여서 처리 형태소는 이미 만들어놓은 형태소가 없으면 tokenizer 할 수 없다는 게 단점.
Deep learning/자연어처리
Deep learning/컴퓨터비전
Batch normalization 배치 정규화 효과
Deep learning/기초이론
BN- local minimum 에 빠지는 걸 방지해준다. --> loss펑션 그래프를 완만하게 만들어준다