728x90
반응형
통계 기반의 언어 모델
언어 모델은 단어 시퀀스에 확률을 할당하는 일을 하는 모델이다. 이를 조금 풀어서 쓰면, 언어 모델은 가장 자연스러운 단어 시퀀스를 찾아내는 모델이다. 단어 시퀀스에 확률을 할당하게 하기 위해서 가장 보편적으로 사용되는 방법은 언어 모델이 이전 단어들이 주어졌을 때 다음 단어를 예측하도록 하는 것이다.
단어 시퀀스의 확률 할당
자연어 처리에서 단어 시퀀스에 확률을 할당하는 일이 왜 필요할까? 예를 들어보자.
기계 번역(Machine Translation)
P(나는 버스를 탔다) > P(나는 버스를 태운다)
언어 모델은 두 문장을 비교하여 좌측의 문장의 확률이 더 높다고 판단한다.
오타 교정(Spell Correlation)
선생님이 교실로 부리나케
P(달려갔다) > P(잘려갔다)
언어 모델은 두 문장을 비교하여 좌측의 문장의 확률이 더 높다고 판단한다.
음성 인식(Speech Recognition)
P(나는 메롱을 먹는다) < P(나는 메론을 먹는다)
언어 모델은 두 문장을 비교하여 우측의 문장의 확률이 더 높다고 판단한다.
언어 모델의 간단한 직관
'비행기를 타려고 공항에 갔는데 지각을 하는 바람에 비행기를 [?]'라는 문장이 있다. '비행기를' 다음에 어떤 단어가 오게 될지 사람은 쉽게 '놓쳤다'라고 예상할 수 있다. 우리 지식에 기반해 나올 수 있는 여러 단어들을 후보에 놓고 놓쳤다는 단어가 나올 확률이 가장 높다고 판단했기 때문이다.
그렇다면 기계에게 위 문장을 주고, '비행기를' 다음에 나올 단어를 예측해보라고 한다면 과연 어떻게 최대한 정확히 예측할 수 있을까? 기계도 비슷하다. 앞에 어떤 단어들이 나왔는지 고려해 후보가 될 수 있는 여러 단어들에 대해서 확률을 예측해보고 가장 높은 확률을 가진 단어를 선택한다.
728x90
반응형
'NLP > 딥러닝을 이용한 자연어 처리 입문' 카테고리의 다른 글
[NLP] 2-2. N-gram 언어 모델 (0) | 2023.12.20 |
---|---|
[NLP] 2-1. 통계적 언어 모델(Statistical Language Model, SLM) (0) | 2023.12.04 |
[NLP] 1-7. 원-핫 인코딩(One-Hot Encoding) (0) | 2023.12.01 |
[NLP] 1-6. 패딩(Padding) (0) | 2023.12.01 |
[NLP] 1-5. 정수 인코딩 (0) | 2023.11.30 |