사용자 도구

사이트 도구


programming:unicode

Unicode

Encoding 방식의 차이는?

UTF-8

  • 가변 길이(variable length) encoding
  • 최소 1byte
  • Unicode code point 0-127 은 1개의 바이트로 표현함.
  • 128 이상의 code point 는 2~4byte 로 표현함.
  • ASCII와 호환됨. ASCII를 표현할 때 1byte만 필요함.
  • 즉, 영문만 있을 때는 ASCII와 UTF-8 이 동일하게 표현된다. ASCII가 워낙 광범위하게 쓰였기 때문에 UTF-8이 따라감.

UTF-16

  • 가변 길이 encoding
  • 2byte 혹은 4byte 로 표현함.
  • ASCII와 호환 안됨.

UTF-32

  • 고정 길이(fixed width) 인코딩
  • 4byte 고정 길이

한글

  • 이 중 한글은 U+1100~U+11FF 사이에 한글 자모 영역, U+AC00~U+D7AF 사이의 한글 소리 마디 영역에 포함된다

IDEOGRAPHIC SPACE

Unicode To ASCII Escape

참조

programming/unicode.txt · 마지막으로 수정됨: 2022/03/19 23:58 저자 kwon37xi