728x90
반응형
텍스트 전처리 과정
텍스트 전처리 과정은 크게 토큰화, 정제 및 추출, 인코딩으로 나눌 수 있다.
1. 토큰화
주어진 문장을 토큰이라 불리는 단위로 나누는 작업
-> 토큰의 단위가 상황에 따라 다르지만, 보통 의미 있는 단위로 토큰을 정의
-> ex) I / love / you / for / always / Do / n't / be / afraid
2. 정제 및 추출
주어진 문장에서 중요한 단어를 제외하고는 없애는 작업
-> ex) I was wondering if you can help me on this problem.
3. 인코딩
남겨진 단어들을 숫자로 바꾸는 작업
-> 방식에 따라 정수 인코딩, one-hot 인코딩이 있다.
-> ex) [1, 5], [1, 3], [1, 2, 5], [1, 0, 0, 0, 0], [0, 1, 0, 0, 0]
언어의 전처리 과정
1. Sentence
2. Tokenization
3. Cleaning, Stemming
4. Encoding
5. Sorting
6. Padding, Similarity
728x90
반응형
'NLP > 딥러닝을 이용한 자연어 처리 입문' 카테고리의 다른 글
[NLP] 1-4. 불용어(Stopword) (1) | 2023.11.30 |
---|---|
[NLP] 1-3. 추출(Stemming) (1) | 2023.11.29 |
[NLP] 1-2. 정제(Cleaning)와 정규화(Normalization) (0) | 2023.11.29 |
[NLP] 1-1. 토큰화(Tokenization) (0) | 2023.11.28 |
[NLP] 0. 자연어 처리란? (0) | 2023.11.28 |