BERT
·
Deep learning/자연어처리
Tokenizer BPE - Byte-pair Encoding - 전체 문서를 문자단위로 쪼갠 뒤 빈번하게 나오는 문자를 묶어 단어사전 수를 줄임. '모', '델' 로 나누고 '모델'이 빈번하게 발생하면 '모델'로 붙여서 처리 형태소는 이미 만들어놓은 형태소가 없으면 tokenizer 할 수 없다는 게 단점. https://heekangpark.github.io/nlp/huggingface-bert Huggingface BERT 톺아보기 Reinventing the Wheel heekangpark.github.io
bert 모델 공부하기
·
Deep learning/자연어처리
https://hyen4110.tistory.com/87 [Pytorch][BERT] 버트 소스코드 이해 [Pytorch][BERT] 버트 소스코드 이해 목차 BERT 👀 📑 BERT Config 📑 BERT Tokenizer 📑 BERT Model 📑 BERT Input 📑 BERT Output 📑 BERT Embedding 📑 BERT Pooler 📑 BERT Enocder 📑 BERT Layer 📑 BERT SelfAttention 📑 BERT SelfO hyen4110.tistory.com
02. 전처리 : 토큰화
·
Deep learning/자연어처리
1. 전처리 과정 1)코퍼스(Corpus, 말뭉치) 수집 코퍼스란 자연어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 코퍼스가 많고 오류가 없을 수록 자연어 처리 모델은 더욱 정교해지고 정확도가 높아진다. 2)정제 - 정규화(Normalization) 텍스트를 사용하기 위한 필수 과정이다. 원하는 업무, 문제, 응용 분야에 따라 필요한 정제의 수준, 깊이가 상이하다. 예시 음성 인식을 위한 언어 모델: 괄호, 기호, 특수문자 등 포함 금지 개인정보, 민감한 정보: 제거 또는 변조해서 모델링 전각 문자 제거 중국어, 일본어 문서는 대부분 전각 문자로 표기된다. 한국어 문서의 일부는 전각 문자로 표기된 기호, 숫자 등을 사용한다. 데이터 처리는 반각 문자를 기준으로 하므로 전각 문자를 ..
01. 자연어 처리 개요
·
Deep learning/자연어처리
1. 자연어란? 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어, 영어와 같이 오랜세월에 걸쳐 자연적으로 만들어진 언어 자연어 처리(Natural Language Processing) 컴퓨터가 인간의 언어를 알아들을 수 있도록 인간의 언어를 분석하고 해석하여 처리하는 인공지능의 한 분야 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고 자동으로 생성하는 것 등에 관련된 분야 2. 자연어처리 테스크 자연어처리가 다학제 연구인만큼 다양한 테스트들이 있다. 크게 Linguistics, Text Mining, Artificial Intelligence(AI) 세가지 범주에서 테스크를 구분함. Linguistics 언어학에서는 자연어를 이해하고 생성하..
트랜스포머 , GPT 코드 구현
·
Deep learning/자연어처리
https://paul-hyun.github.io/gpt-01/ GPT(Generative Pre-Training) 구현하기 (1/2) How to implement the GPT model paul-hyun.github.io