단어의 표현 방법
단어의 표현 방법은 크게 국소 표현과 분산 표현으로 나뉜다.
국소 표현 방법은 해당 단어 그 자체만 보고, 특정값을 매핑하여 단어를 표현하는 방법이며, 분산 표현 방법은 그 단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법이다.
예를 들어 puppy(강아지), cute(귀여운), lovely(사랑스러운)라는 단어가 있을 때 각 단어에 1번, 2번, 3번 등과 같은 숫자를 매핑하여 부여한다면 이는 국소 표현 방법에 해당된다. 반면, 분산 표현 방법의 예를 하나 들어보면 해당 단어를 표현하기 위해 주변 단어를 참고한다. puppy라는 단어는 cute, lovely한 느낌이다로 단어를 정의한다. 이렇게 되면 이 두 방법의 차이는 국소 표현 방법은 단어의 의미, 뉘앙스를 표현할 수 없지만, 분산 표현 방법은 단어의 뉘앙스를 표현할 수 있게 된다.
또한 비슷한 의미로 국소 표현 방법을 이산 표현이라고도 하며, 분산 표현을 연속 표현이라고도 한다.
단어 표현의 카테고리화
이번 챕터의 Bag of Words는 국소 표현에 속하며, 단어의 빈도수를 카운트하여 단어를 수치화하는 단어 표현 방법이다. 이 챕터에서는 BoW와 그의 확장인 DTM(또는 TDM)에 대해서 학습하고, 이러한 빈도수 기반 단어 표현에 단어의 중요도에 따른 가중치를 줄 수 있는 TF-IDF에 대해서 학습한다.
워드 임베딩 챕터에서는 연속 표현에 속하면서, 예측을 기반으로 단어의 뉘앙스를 표현하는 Word2Vec와 그의 확장인 FastText를 학습하고, 예측과 카운트라는 두 가지 방법이 모두 사용된 Glove에 대해서 학습한다.
'NLP > 딥러닝을 이용한 자연어 처리 입문' 카테고리의 다른 글
[NLP] 3-3. 문서 단어 행렬(DTM) (0) | 2023.12.26 |
---|---|
[NLP] 3-2. Bag of Words(BoW) (0) | 2023.12.21 |
[NLP] 3. 카운트 기반의 단어 표현 (0) | 2023.12.21 |
[NLP] 2-4. 펄플렉시티(Perplexity, PPL) (1) | 2023.12.20 |
[NLP] 2-3. 한국어에서의 언어 모델 (1) | 2023.12.20 |