[Preprocessing] Tokenize -1

Implementation/Text 2021. 11. 2. 14:29

# Tokenize 한 단어를 리스트 안에 넣는 방법 참고 


blank=[] 
A = '오늘 날씨는 부분적으로 맑음' 

# 글자를 기준할 때 
for e in A:
 	blank.append(e)

print(blank)
>>>  ['오', '늘', ' ', '날', '씨', '는', ' ', '부', '분', '적', '으', '로', ' ', '맑', '음']


# 문장 단위로 넣고 싶을 때
blank = ['오']
for p in A[1:]:
  	blank[-1] += p
    
print(blank) 
>>> ['오늘 날씨는 부분적으로 맑음']
    
# 위의 두 케이스를 응용하면, 단어 단위로 넣을 수 있다. 
=> 업데이트 예정

'Implementation > Text' 카테고리의 다른 글

[LSTM] return_sequence = True or False (0)	2021.10.05
[Text] Word2Vec (0)	2021.10.02
[RNN] 파라미터 개수 카운팅 (2)	2021.09.21

ABOUT ME

Data Scientist Data Scientist

'Implementation > Text' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Implementation > Text' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바