- Tokenizer
- BPE - Byte-pair Encoding - 전체 문서를 문자단위로 쪼갠 뒤 빈번하게 나오는 문자를 묶어 단어사전 수를 줄임.
- '모', '델' 로 나누고 '모델'이 빈번하게 발생하면 '모델'로 붙여서 처리
- 형태소는 이미 만들어놓은 형태소가 없으면 tokenizer 할 수 없다는 게 단점.
- BPE - Byte-pair Encoding - 전체 문서를 문자단위로 쪼갠 뒤 빈번하게 나오는 문자를 묶어 단어사전 수를 줄임.
https://heekangpark.github.io/nlp/huggingface-bert
Huggingface BERT 톺아보기
Reinventing the Wheel
heekangpark.github.io
'Deep learning > 자연어처리' 카테고리의 다른 글
bert 모델 공부하기 (0) | 2023.07.28 |
---|---|
02. 전처리 : 토큰화 (0) | 2022.09.06 |
01. 자연어 처리 개요 (0) | 2022.08.17 |
트랜스포머 , GPT 코드 구현 (0) | 2020.10.16 |