BERT
·
Deep learning/자연어처리
Tokenizer BPE - Byte-pair Encoding - 전체 문서를 문자단위로 쪼갠 뒤 빈번하게 나오는 문자를 묶어 단어사전 수를 줄임. '모', '델' 로 나누고 '모델'이 빈번하게 발생하면 '모델'로 붙여서 처리 형태소는 이미 만들어놓은 형태소가 없으면 tokenizer 할 수 없다는 게 단점. https://heekangpark.github.io/nlp/huggingface-bert Huggingface BERT 톺아보기 Reinventing the Wheel heekangpark.github.io