UTF-8Àº ¸ðµç
Unicode ¹®ÀÚ¸¦ 1¹ÙÀÌÆ®¿¡¼ 4¹ÙÀÌÆ®±îÁö °¡º¯Æø ¹ÙÀÌÆ® ½ºÆ®¸²À¸·Î ÀÎÄÚµùÇÑ´Ù.
6¹ÙÀÌÆ®°¡ ¾Æ´Ô.
ISO JTC1/SC2/WG2(http://anubis.dkuug.dk/JTC1/SC2/WG2/)´Â °ø½ÄÀûÀ¸·Î ISO 10646¿¡¼ UTF-16À¸·Î Ç¥Çö °¡´ÉÇÑ »óÇѼ±ÀÎ U+10FFFF¸¦ ³Ñ´Â ¹üÀ§¿¡ ¹®ÀÚ¸¦ ¹èÁ¤ÇÏÁö ¾ÊÀ¸¸®¶ó°í °áÁ¤Çß°í,
Unicode Technical Committee(http://www.unicode.org/consortium/utc.html)´Â ±×¿¡ ¾Õ¼ °°Àº °áÁ¤À» ³»·È´Ù.
ÇϳªÀÇ
Unicode ¹®ÀÚ¸¦ ¸î ¹ÙÀÌÆ®·Î ÀÎÄÚµùÇÒÁö´Â ÇØ´ç ±ÛÀÚ¿¡ ÇÒ´çµÈ Äڵ尪 (
Unicode Scalar Value(http://www.unicode.org/glosssary/#U))¿¡ µû¶ó °áÁ¤ÇÒ ¼ö ÀÖ´Ù. U+007F(127)±îÁö´Â 1 ¹ÙÀÌÆ®, U+0080(128)¿¡¼ U+07FF(2047)±îÁö´Â 2 ¹ÙÀÌÆ®, U+0800(2048)¿¡¼ U+FFFF(65535)±îÁö´Â 3 ¹ÙÀÌÆ®, U+10000(65536)¿¡¼ U+10FFFF(1114111)±îÁö´Â 4 ¹ÙÀÌÆ®¸¦ ¾´´Ù. µû¶ó¼ US-ASCII¿¡ ¼ÓÇÏ´Â ¹®ÀÚ´Â U+0000 (NULL)À» Æ÷ÇÔÇؼ
UTF-8¿¡¼´Â ÇÑ ¹ÙÀÌÆ®·Î Ç¥ÇöÇÒ ¼ö ÀÖ´Ù. ÀÌ Æ¯¼ºÀº US-ASCII¿Í ȣȯ¼ºÀ» À¯ÁöÇØ¾ß ÇÏ´Â À¯´Ð½º ÆÄÀÏ ½Ã½ºÅÛ, SMTP (ÀÎÅÍ³Ý ¸ÞÀÏ)¸¦ ºñ·ÔÇÑ ÅؽºÆ® ±â¹ÝÀÎ ¿©·¯ ÀÎÅÍ³Ý ÇÁ·ÎÅäÄÝ¿¡¼ ¾²±â¿¡ ÀûÇÕÇÏ´Ù.
Unicode¸¦ ÀÎÄÚµùÇÏ´Â ¹æ¹ýÀ¸·Î´Â UTF-7,
UTF-8, UTF-16, UTF-32 µî ¿©·¯ °¡Áö ¹æ¹ýÀÌ ÀÖ´Ù.
TeX¿¡¼´Â ÁÖ·Î
UTF-8À» »ç¿ëÇϴµ¥, CJK ¹®ÀÚ´Â U+0800 ÀÌÈÄ¿¡ ÇÒ´çµÇ¾î ÀÖÀ¸¹Ç·Î
UTF-8¿¡¼ 3 ¹ÙÀÌÆ®¸¦ ½á¼ ³ªÅ¸³»¾ß ÇÑ´Ù. ¹Ý¸é¿¡ UTF-16À» ¾µ °æ¿ì¿¡´Â CJK ±ÛÀÚ¸¦ Æ÷ÇÔÇؼ ¸ðµç BMP (Basic Multilingual Plane :
Unicode Áß Ã³À½ 65,536 ÄÚµå Æ÷ÀÎÆ®)¿¡ ¼ÓÇÏ´Â ±ÛÀÚ´Â 2 ¹ÙÀÌÆ®·Î ³ªÅ¸³½´Ù. ÀÌ·± ÀÌÀ¯·Î UTF-16À» ¼±È£ÇÏ´Â °æ¿ì°¡ ÀÖÀ¸³ª (
UTF-8ÀÌ UTF-16¿¡ ºñÇØ ÃÖ´ë 1.5¹è ´õ ¸¹Àº ÀúÀå °ø°£/¼Û½Å ½Ã°£À» ¿äÇϹǷÎ) US-ASCII¿ÍÀÇ È£È¯¼ºÀº ¸¹Àº °æ¿ì¿¡ ´ë´ÜÈ÷ Áß¿äÇϹǷÎ, Unix(Mac OS X)¿Í
BeOS µîÀº ÅؽºÆ® Çü½Ä°ú ±×¿Í À¯»çÇÑ Çü½Ä¿¡¼
UTF-8À» ÁÖ·Î ¾´´Ù. °°Àº ÀÌÀ¯·Î
TeX/Omega¿¡¼µµ
UTF-8À» ÁÖ·Î ¾´´Ù. ¹Ý¸é¿¡ Win32¿¡¼´Â ÅؽºÆ® ¹®¼ Çü½Äµµ ±âº»À¸·Î´Â UTF-16À» »ç¿ëÇÑ´Ù.
ÅؽºÆ® Çü½Ä°ú OS³ª ÇÁ·Î±×·¥ ȤÀº ¶óÀ̺귯¸® ³»ºÎ¿¡¼ ¾î¶² ÀÎÄÚµùÀ» ¾²´À³Ä´Â º°°³ÀÇ ¹®Á¦ÀÌ´Ù. Linux glibc´Â UTF-32¸¦ ¾²°í, Mac OS X, Win32, Omega, ICU (International Component for
Unicode), Java,
ECMAscript(http://www.ecma-international.org/publications/standards/Ecma-262.htm), Mozilla µîÀº UTF-16À» ¾²°í,
BeOS, glib, Perl µîÀº
UTF-8À» ¾´´Ù. PythonÀº UTF-32 ȤÀº UCS-2 (2byte ȤÀº 4byte¸¦ ¾²´Â °¡º¯Æø ÀÎÄÚµùÀÎ UTF-16°ú ´Þ¸® UCS-2´Â 2byte °íÁ¤Æø ÀÎÄÚµùÀ¸·Î ¿ÀÁ÷ BMP¸¸ Áö¿øÇÒ ¼ö ÀÖ´Ù.)¸¦ ¾²µµ·Ï ÄÄÆÄÀÏÇÒ ¼ö ÀÖ´Ù.
UTF-32´Â °¡º¯Æø ÀÎÄÚµùÀÎ UTF-16À» ´Ù·ç´Âµ¥¼ ¿À´Â ºÒÆíÇÔÀ» ÇÇÇÒ ¼ö ÀÖ´Â ¹Ý¸é¿¡
UTF-8¿¡ ºñÇØ ÃÖ´ë 4¹èÀÇ °ø°£(US-ASCII¿¡ ¼ÓÇÏ´Â ±ÛÀÚ¶ó¸é)À», UTF-16¿¡ ºñÇؼµµ ÃÖ´ë 2¹è (BMP¿¡ ¼ÓÇÏ´Â ±ÛÀÚÀÇ °æ¿ì)ÀÇ °ø°£À» ¾´´Ù´Â ´ÜÁ¡ÀÌ ÀÖ´Ù.
´õ ÀÚ¼¼ÇÑ °ÍÀº ´ÙÀ½ À¥ ÆäÀÌÁö¿Í °Å±â¼ ¾ð±ÞÇÑ MS, Apache µî¿¡ ÀÖ´Â °ü·Ã ÆäÀÌÁö¸¦ ÂüÁ¶ÇϽʽÿÀ : -- ½ÅÁ¤½Ä