Oneulog

토큰화 주어진 문장에서 "의미 부여"가 가능한 단위를 찾는다. 예 1) Machine / learning / methods / including / ANN / have / been / applied / in / compound / activity / prediction / for / a / long / time. 단어 토큰화(Word Tokenization) 토큰의 기준을 단어(Word)로 하는 경우를 단어 토큰화라고 한다. 다만, 여기서 단어는 단어 단위 외에도 의미를 갖는 문자열로 간주되기도 한다. 이러한 단어 토큰화 작업을 수행할 시 구두점(마침표, 컴마, 세미콜론, 느낌표 등)과 같은 문자는 제외시킨다는 특징이 있다. 입력 : Time is an illusion. Lunchtime double s..
텍스트 전처리 과정 텍스트 전처리 과정은 크게 토큰화, 정제 및 추출, 인코딩으로 나눌 수 있다. 1. 토큰화 주어진 문장을 토큰이라 불리는 단위로 나누는 작업 -> 토큰의 단위가 상황에 따라 다르지만, 보통 의미 있는 단위로 토큰을 정의 -> ex) I / love / you / for / always / Do / n't / be / afraid 2. 정제 및 추출 주어진 문장에서 중요한 단어를 제외하고는 없애는 작업 -> ex) I was wondering if you can help me on this problem. 3. 인코딩 남겨진 단어들을 숫자로 바꾸는 작업 -> 방식에 따라 정수 인코딩, one-hot 인코딩이 있다. -> ex) [1, 5], [1, 3], [1, 2, 5], [1, 0,..
자연어와 자연어 처리란? 자연어란 일상 생활에서 사용하는 언어를 말한다. 자연어 처리란 이러한 자연어의 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 일을 말한다. 자연어 처리의 활용 1. 음성 인식 2. 내용 요역 3. 번역 4. 감성 분석 5. 텍스트 분류 6. 질의 응답 시스템 -> 이외에도 다양한 분야에서 자연어 처리가 활용되고 있다. 자연어 처리가 활용되는 예시와 각 예시 별 활용되는 기술 Chatbot : A Program for Interaction Sentiment Analsis 텍스트에 녹아 있는 감성 또는 의견을 파악 Tokenization 단어의 최솟한의 의미를 파악하는 쪼개기 Named Entity Recognition 텍스트로부터 주제 파악하기 Normalization 의도된 오타..
NLP Developer
'NLP/딥러닝을 이용한 자연어 처리 입문' 카테고리의 글 목록 (4 Page)