이 글의 문맥을 분석하여 이글루스에 있는 많은 글 중에서 관련성이 높은 글을 자동으로 검색해 낸 결과입니다.
디버그 세상 debug.egloos.com
이글루스 로그인
뭐야이거... 몰라 무서워...
by 인명재천

카테고리
잡다한 이야기
프로그래밍&공부
Magic: the Gathering
마비노기
이미지링크용
이글루링크
미친병아리가 삐약삐약
소스코드위를 걷다.....
JeJenan's Magic the..
강철의 연금관리공단
Alphageek
◎ Yellow berry
幽雅に笑かせ, 墨染の櫻.
룰루아빠의 손가락
슈나의 망상 몽상 공상 일상
Trouble n Travel
Ri.E' Castle In The Mist
메롱쟁이
타이거팀
Robbie : 기록을 남기는..
bobab
Virgin Lunar
달빛바람이 머무는곳
. _ Emperor С. Д...
A day in the game d..
E m i l y
Dimmi
Links...
jin.wo.to
랜덤링크
새 블로그
즐겨찾기


라이프로그
링크
링크

최근 등록된 덧글
최근 포스팅에 인명재천..
by 윤소정 at 05/12
크아 애들 봐라.
by Kasca at 04/17
애들이 최고 귀여움 ㅎ ..
by Kasca at 04/17
마비친구분인가? 재천님..
by Mystic at 02/07
뭔진 모르겠고, 역시 ..
by Kasca at 01/30
최근 등록된 트랙백
Adderall.
by Adderall overnight no..
Amoxicillin and strep..
by Amoxicillin and clavu..
Levitra.
by Generic levitra.
Vicodin.
by Order vicodin es gene..
Adderall.
by Combining adderall ..
이글루 파인더
Powered by egloos
rss

skin by 이글루스
UTF-8의 특징

UTF-8은 다음의 성질을 갖고 있다:

  • U+0000부터 U+007F까지의 UCS 문자들은 0x00에서 0x7f 바이트까지 쉽게 인코딩된다(ASCII와의 호환성). 이것은 오직 7비트의 ASCII 문자들을 포함하는 파일 및 문자열들이 ASCII와 UTF-8 양쪽 모두에서 같은 인코딩을 갖는다는 것을 의미한다.
  • U+007F보다 큰 모든 UCS 문자들은 각각 독자적인 바이트의 시퀀스로써 인코딩되며, 이것들은 각각 가장 중요한 비트셋(bit set)을 가진다. 그러므로 다른 문자의 부분에 어떤 ASCII 바이트(0x00-0x7f)도 나타날 수 없다.
  • ASCII가 아닌 문자를 나타내는 멀티바이트 시퀀스의 첫번째 바이트는 항상 0xC0 에서부터 0xFD 범위(11로 시작하는 바이트)에 있으며, 그것은 이러한 문자를 위해 얼마나 많은 바이트가 필요한 지를 가르킨다. 멀티바이트 시퀀스의 모든 이후의 바이트들은 0x80에서부터 0xBF 범위(10으로 시작하는 바이트)에 있다. 이 때문에 resynchronization을 쉽게할 수 있고 국가에 구애받지 않고 인코딩할 수 있으며 바이트를 잃어버리지 않게 된다.
  • 가능한 모든 231 UCS 코드를 인코딩할 수 있다.
  • UTF-8로 인코딩한 문자들은 이론적으로 6바이트 길이까지 가능하지만, 16비트 BMP 영역 문자들은 오직 3바이트 길이까지 가능하다.
  • Bigendian UCS-4 바이트 문자열의 정렬 순서는 보존된다.
  • 0xFE 및 0xFF 바이트는 결코 UTF-8 인코딩에서 사용하지 않는다.

다음의 바이트 시퀀스는 한 문자를 나타내기 위해 사용한다. 사용되는 시퀀스는 그 문자의 유니코드 번호에 따라 달라진다.

U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

xxx비트의 위치는 이진 표기법에 의해 문자 코드 번호의 비트들로 채워진다. 가장 오른쪽의 x는 LSB(least-significant bit)이다. 그 문자의 코드 번호를 나타내는 오직 가장 짧은 멀티바이트 시퀀스만 사용할 수 있다. 멀티바이트 시퀀스에서 첫 번째 바이트의 왼쪽 1비트의 수는 전체 시퀀스에서의 바이트 수와 같다는 점에 주의하라.


출처 : http://kldp.org/Translations/html/UTF8-Unicode-KLDP/UTF8-Unicode-KLDP.html

# by 인명재천 | 2007/10/09 14:30 | 트랙백
트랙백 주소 : http://debug.egloos.com/tb/3428243
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
※ 로그인 사용자만 덧글을 남길 수 있습니다.
이전페이지 다음페이지


이글루링크 추가하기
()을(를)
이글루링크로 추가하시겠습니까? 추가하시려면 그룹선택을 하세요.
(그룹선택 하지 않는 경우, 최상단 목록에 추가됩니다.)
그룹선택 :
이글루링크 취소