[MRC] Unicode & Tokenization

2023-03-23 2 분 소요

전 세계 모든 문자를 다룰 수 있는 Unicode와 텍스트를 토큰 단위로 나누는 Tokenization에 대해 알아보자.

Unicode & Tokenization

Unicode란

전 세계의 모든 문자를 일관되게 표현하고 다룰 수 있도록 만들어진 문자set이다. 각 문자마다 숫자 하나에 매핑한다.

U+AC00
- “U+”: 유니코드를 뜻하는 접두어
- “AC00”: 16진수 Code Point

인코딩과 UTF-8

인코딩이란?
- 문자를 컴퓨터에서 저장 및 처리할 수 있게 이진 수로 바꾸는 것
UTF-8(Unicode Transformation Format)이란?
- 현재 가장 많이 쓰는 인코딩 방식이다.
- 문자 타입에 따라 다른 길이의 바이트를 할당한다.
- 1byte로는 표준 ASCII를 표현하며 영어를 모두 표현할 수 있다. 하지만 다른 언어들을 사용하려면 더 많은 byte가 필요하다.
- 2byte는 Arabic, Hebrew, 대부분의 유럽 언어들을 표현할 수 있고,
- 3byte로는 한글을 포함한 대부분 현대 글자를 모두 표현할 수 있다.
- 4byte로는 이모지 등을 포함한 모든 유니코드 문자들을 표현할 수 있다.

Python에서 Unicode 다루기

python으로 Unicode를 다루는 것은 꼭 갖춰야하는 매우 중요한 Skill이다.

python3부터는 String 타입을 Unicode를 표준으로 사용하고 있다.

ord()

  # 알파벳은 1byte내로 표현하며, ASCII 결과와 같다.
  ord('A')
  >> 65
  hex(ord('A'))
  >> '0x41'
    
  # 한글은 3byte까지 가야하므로 숫자가 높다.
  ord('가')
  >> 44032
  hex(ord('가'))
  >> '0xac00'

chr()

  chr(44032)
  >> '가'
  chr(0xAC00)
  >> '가'
    
  chr(65)
  >> 'A'
  chr(0x41)
  >> 'A'

Unicode와 한국어

한국어는 한자 다음으로 유니코드에서 많은 개수를 차지한다. 유니코드에서는 완성형, 조합형으로 한글을 표현한다.

완성형
- 현대 한국어의 자모 조합으로 나타날 수 있는 모든 완성형 한글은 총 11,172자이다.
- U+AC00 ~ U+D7A3 으로 표현할 수 있다.
조합형
- 조합하여 글자를 만들 수 있는 초성, 중성, 종성을 표현한다.
- U+1100 ~ U+11FF, U+A960 ~ U+A97F, U+D7B0 ~ U+D7FF 으로 표현할 수 있다.

chr(0x1100)
>> 'ㄱ'

chr(0x1161)
>> 'ㅏ'

chr(0x1100) + chr(0x1161)
>> '가'

# 조합형
len('가')
>> 2

# 완성형
len('가')
>> 1 

Tokenizing

Tokenizing이란 텍스트를 토큰 단위로 나누는 것이다.

단어(띄어쓰기 기준), 형태소, subword 등 여러 토큰 기준이 사용된다.

띄어쓰기 기준으로 한 tokenizing은 효율적이지 않다고 한다. 주로 형태소나 subword tokenizing을 사용한다고 한다.

Subword Tokenizing

자주 쓰이는 글자 조합은 한 단위로 취급하고, 자주 쓰이지 않는 조합은 subword로 쪼갠다.

“##”은 디코딩을 할 때, 해당 토큰을 앞 토큰에 띄어쓰기 없이 붙인다는 것을 의미한다.

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")
tokenizer.tokenizer('아버지 가방에 들어가신다.')
>> ['아버지', '가', '##방', '##에', '들어', '##가', '##신', '##다']

Bert에 사용된 토크나이저를 사용했다. 이 토크나이저는 bert-base-multilingual-cased에 귀속된 방법 중 하나이다. 토크나이저는 모델의 일부라고 할 수 있다.

BPE (Byte-Pair Encoding)

BPE는 데이터 압축용으로 제안된 알고리즘이며, NLP에서 토크나이징용으로 활발하게 사용되고 있다.

가장 자주 나오는 글자 단위 Bigram (or Byte pair)를 다른 글자로 치환한다.
치환된 글자를 저장해둔다.
1~2번을 반복한다.

X는 aaab 즉, 글자 4개, Y와 Z는 각각 글자 2개를 뜻하는 것을 알 수 있다.

regular expression 같은 방식으로 사람이 직접 rule을 설정하여 토크나이징을 하였지만 이 방법에 한계가 있다. 따라서 BPE와 같은 Data Driven 방식을 일반적으로 많이 사용하고 있다.

Twitter Facebook LinkedIn

JIBIN SONG

[MRC] Unicode & Tokenization

Unicode & Tokenization

Unicode란

인코딩과 UTF-8

Python에서 Unicode 다루기

Unicode와 한국어

Tokenizing

Subword Tokenizing

BPE (Byte-Pair Encoding)

공유하기

댓글남기기

참고

[논문 정리] CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

[논문 조사] Audio 2개를 mixing하거나, 이어붙이거나, 중첩시켜서 input으로 사용하는 생성모델 논문 조사

[논문 정리] StableVideo: Text-driven Consistency-aware Diffusion Video Editing

[논문 정리] Text Inversion: An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion