728x90
반응형
자연어 처리에서 텍스트를 표현하는 방법으로는 여러 가지 방법이 있다. 그 중 DTM(Document Term Matrix)과 TF-IDF(Term Frequency-Inverse Document Frequency)는 정보 검색과 텍스트 마이닝 분야에서 주로 사용되는 카운트 기반의 텍스트 표현 방법이다.
텍스트를 위와 같은 방식으로 수치화를 하고 나면, 통계적인 접근 방법을 통해 여러 문서로 이루어진 텍스트 데이터가 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내거나, 문서의 핵심어 추출, 검색 엔진에서 검색 결과의 순위 결정, 문서들 간의 유사도를 구하는 등의 용도로 사용할 수 있다.
728x90
반응형
'NLP > 딥러닝을 이용한 자연어 처리 입문' 카테고리의 다른 글
[NLP] 3-2. Bag of Words(BoW) (0) | 2023.12.21 |
---|---|
[NLP] 3-1. 다양한 단어의 표현 방법 (0) | 2023.12.21 |
[NLP] 2-4. 펄플렉시티(Perplexity, PPL) (1) | 2023.12.20 |
[NLP] 2-3. 한국어에서의 언어 모델 (1) | 2023.12.20 |
[NLP] 2-2. N-gram 언어 모델 (0) | 2023.12.20 |