Implementation/Loss
[Math] Perplexity-Language_Model
Eric_Park
2021. 9. 21. 09:32
# Perplexity
문장이 나올 확률이 정규화( root n ) 된 수의 역수
=> 각 단어들의 조건부 확률의 곱이 결과값이 되어서 문장이 전체 모델에서 나타날 확률을 의미
=> 그러한 확률값들의 평균 혹은 정규화 ( root n )
=> 따라서 문장이 모델에서 나타날 확률이 높을 수록, 즉 P(w1, w2, ..., wn) 값이 클수록
전체 값이 커지게 되고, 그 역수인 Perplexity 값은 작아지게 된다.

# Chain Rule

# N-gram style
- 예시는 bigram 이다.

# 분기 계수(Branching factor)
=> 평균적으로 다음단어를 선택할 때 10개 정도의 단어를 고민하고 있다는 의미. 아래 예제의 경우
