정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법에는 표제어 추출(Lemmatization)과 어간 추출(Stemming)이 있다. 이 두 기법이 갖고 있는 의미는 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜 문서 내의 단어 수를 줄이고자 하는 것이다. 이처럼 자연어 처리에서 정규화의 지향점은 언제나 갖고 있는 코퍼스로부터 복잡성을 줄이는 것이다. 표제어 추출(Lemmatization) 표제어 추출이란 표제어 추출은 단어들로부터 표제어를 찾아가는 과정이다. 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단한다. 이러한 표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진..
Oneulog
정제와 정규화 코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화(tokenization)이라고 하며, 토큰화 작업 전, 후에는 텍스트 데이터의 용도에 맞게 정제(Cleaning) 및 정규화(Normalization)하는 일이 함께 한다. 정제(Cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 정규화(Normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 1) 대문자 vs 소문자 Language language -> 두 단어는 같은 말이지만 컴퓨터는 가장 앞의 L과 l로 인해 다른 문자로 인식한다. 따라서 같은 문자로 변환해 주어야 한다 US us -> US는 '미국', us는 '우리'라는 뜻을 가지고 있다. 이처럼 대문자를 소문자로 바꾸는 것..
토큰화 주어진 문장에서 "의미 부여"가 가능한 단위를 찾는다. 예 1) Machine / learning / methods / including / ANN / have / been / applied / in / compound / activity / prediction / for / a / long / time. 단어 토큰화(Word Tokenization) 토큰의 기준을 단어(Word)로 하는 경우를 단어 토큰화라고 한다. 다만, 여기서 단어는 단어 단위 외에도 의미를 갖는 문자열로 간주되기도 한다. 이러한 단어 토큰화 작업을 수행할 시 구두점(마침표, 컴마, 세미콜론, 느낌표 등)과 같은 문자는 제외시킨다는 특징이 있다. 입력 : Time is an illusion. Lunchtime double s..
텍스트 전처리 과정 텍스트 전처리 과정은 크게 토큰화, 정제 및 추출, 인코딩으로 나눌 수 있다. 1. 토큰화 주어진 문장을 토큰이라 불리는 단위로 나누는 작업 -> 토큰의 단위가 상황에 따라 다르지만, 보통 의미 있는 단위로 토큰을 정의 -> ex) I / love / you / for / always / Do / n't / be / afraid 2. 정제 및 추출 주어진 문장에서 중요한 단어를 제외하고는 없애는 작업 -> ex) I was wondering if you can help me on this problem. 3. 인코딩 남겨진 단어들을 숫자로 바꾸는 작업 -> 방식에 따라 정수 인코딩, one-hot 인코딩이 있다. -> ex) [1, 5], [1, 3], [1, 2, 5], [1, 0,..
자연어와 자연어 처리란? 자연어란 일상 생활에서 사용하는 언어를 말한다. 자연어 처리란 이러한 자연어의 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 일을 말한다. 자연어 처리의 활용 1. 음성 인식 2. 내용 요역 3. 번역 4. 감성 분석 5. 텍스트 분류 6. 질의 응답 시스템 -> 이외에도 다양한 분야에서 자연어 처리가 활용되고 있다. 자연어 처리가 활용되는 예시와 각 예시 별 활용되는 기술 Chatbot : A Program for Interaction Sentiment Analsis 텍스트에 녹아 있는 감성 또는 의견을 파악 Tokenization 단어의 최솟한의 의미를 파악하는 쪼개기 Named Entity Recognition 텍스트로부터 주제 파악하기 Normalization 의도된 오타..