Implementation/Text

[Preprocessing] Tokenize -1

Eric_Park 2021. 11. 2. 14:29
# Tokenize 한 단어를 리스트 안에 넣는 방법 참고 


blank=[] 
A = '오늘 날씨는 부분적으로 맑음' 

# 글자를 기준할 때 
for e in A:
 	blank.append(e)

print(blank)
>>>  ['오', '늘', ' ', '날', '씨', '는', ' ', '부', '분', '적', '으', '로', ' ', '맑', '음']


# 문장 단위로 넣고 싶을 때
blank = ['오']
for p in A[1:]:
  	blank[-1] += p
    
print(blank) 
>>> ['오늘 날씨는 부분적으로 맑음']
    
# 위의 두 케이스를 응용하면, 단어 단위로 넣을 수 있다. 
=> 업데이트 예정