当前位置:首页 > unicode编码标准

unicode编码标准

unicode编码是什么?

Unicode是一种字符编码方案,它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。

主要内容

为了使Unicode与已存在和广泛使用的旧有编码互相兼容,尤其是差不多所有电脑系统都支援的基本拉丁字母部分,所以Unicode的首256字符仍旧保留给ISO8859-1所定义的字符,使既有的西欧语系文字的转换不需特别考量。

另方面因相同的原因,Unicode把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会遗失任何资讯。

举例来说,全角格式区段包含了主要的拉丁字母的全角格式,在中文、日文、以及韩文字形当中,这些字符以全角的方式来呈现,而不以常见的半角形式显示,这对竖排文字和等宽排列文字有重要作用。

unicode编码是什么?

Unicode是一种字符编码方案,它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。

主要内容

为了使Unicode与已存在和广泛使用的旧有编码互相兼容,尤其是差不多所有电脑系统都支援的基本拉丁字母部分,所以Unicode的首256字符仍旧保留给ISO8859-1所定义的字符,使既有的西欧语系文字的转换不需特别考量。

另方面因相同的原因,Unicode把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会遗失任何资讯。

unicode字符集是多少位的字符编码

unicode编码用2个字节存储字符。

2个字节=16个bit,即16位二进制编码。

注意:一个bit=一位二进制。

最初的unicode编码是固定长度的,16位,也就是2两个字节代表一个字符,这样一共可以表示65536个字符。显然,这样要表示各种语言中所有的字符是远远不够的。

Unicode4.0规范考虑到了这种情况,定义了一组附加字符编码,附加字符编码采用2个16位来表示,这样最多可以定义1048576个附加字符,目前unicode4.0只定义了45960个附加字符。

扩展资料:

字母和数字的ASCII码的记忆是非常简单的。我们只要记住了一个字母或数字的ASCII码(例如记住A为65,0的ASCII码为48),知道相应的大小写字母之间差32,就可以推算出其余字母、数字的ASCII码。

虽然标准ASCII码是7位编码,但由于计算机基本处理单位为字节(1byte=8bit),所以一般仍以一个字节来存放一个ASCII字符。每一个字节中多余出来的一位(最高位)在计算机内部通常保持为0(在数据传输时可用作奇偶校验位)。

参考资料来源:百度百科-字符编码

unicode编码是什么?

Unicode编码是一种字符编码方案。

它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。

主要内容

为了使Unicode与已存在和广泛使用的旧有编码互相兼容,尤其是差不多所有电脑系统都支援的基本拉丁字母部分,所以Unicode的首256字符仍旧保留给ISO8859-1所定义的字符,使既有的西欧语系文字的转换不需特别考量。

另方面因相同的原因,Unicode把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会遗失任何资讯。

Unicode详解

字符编码的问题,每个程序员都会遇到,深入探索其背后的原理和机制,能让我们少走很多弯路。

Unicode万国码国际码统一码单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。

Unicode发展由非营利机构统一码联盟负责,该机构致力于让Unicode方案替换既有的字符编码方案。因为既有的方案往往空间非常有限,亦不适用于多语环境。

统一码联盟在1991年首次发布了TheUnicodeStandard

在2005年,Unicode的第十万个字元被引入成为标准之一,该字元被用于马拉雅拉姆语。

目前实际应用的统一码版本对应于UCS-2,使用16位的编码空间。也就是每个字符占用2个字节。这样理论上一共最多可以表示2的16次(即65536)个字符。基本满足各种语言的使用。实际上当前版本的统一码并未完全使用这16位编码,而是保留了大量空间以作为特殊使用或将来扩展。

最新(但未实际广泛使用)的统一码版本定义了16个辅助平面,两者合起来至少需要占据21位的编码空间,比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间,与UCS-4保持一致。未来版本会涵盖UCS-4的所有字符。UCS-4是一个更大的尚未填充完全的31位字符集,加上恒为0的首位,共需占据32位,即4字节。理论上最多能表示2的31次方个字符,完全可以涵盖一切语言所用的符号。

通用字符集(UniversalCharacterSet)是由ISO制定的ISO10646(或称ISO/IEC10646)标准所定义的标准字符集。

通用字符集包括了其他所有字符集。它保证了与其他字符集的双向兼容,即,如果你将任何文本字符串翻译到UCS格式,然后再翻译回原编码,你不会丢失任何信息。

UCS包含了已知语言的所有字符。除了拉丁语、希腊语、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚语、格鲁吉亚语,还包括中文、日文、韩文这样的方块文字,UCS还包括大量的图形、印刷、数学、科学符号。

ISO/IEC10646定义了一个31位的字符集。

并不是所有的系统都需要支持像组合字符这样的的先进机制。因此ISO10646指定了如下三种实现级别:

历史上存在两个独立的尝试创立单一字符集的组织,即:

1、国际标准化组织(ISO)于1984年创建的ISO/IEC

2、统一码联盟

统一码联盟和ISO/IEC都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。

Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式有所不同。

Unicode的实现方式称为Unicode转换格式(UnicodeTransformationFormat,简称为UTF)。

前面说到,Unicode采用2个字节来编码文件,但是如果一个仅包含7位ASCII字符的Unicode文件,每个字符使用2字节就浪费了一般的存储空间,其第一字节的8位始终为0,这是难以忍受。对于这种情况,可以使用UTF-8编码,这是一种变长编码,它将基本7位ASCII字符仍用7位编码表示,占用一个字节(首位补0)。而遇到与其他Unicode字符混合的情况,将按一定算法转换,每个字符使用1-3个字节编码,并利用首位为0或1进行识别。

问题来了,UTF-8变长编码格式的出现是为了节省存储空间,变长导致了UTF-8的兼容性相应降低。

类似的,对未来会出现的需要4个字节的辅助平面字符和其他UCS-4扩充字符,2字节编码的UTF-16也需要通过一定的算法进行转换。

也就是说,UTF-16是为未来准备的变长编码格式。

还有就是,在Mac和普通PC上,对于字节顺序的理解是不一致的。这时同一字节流可能会被解释为不同内容,如某字符为十六进制编码4E59,按两个字节拆分为4E和59,在Mac上读取时是从低字节开始,那么在MacOS会认为此4E59编码为594E,找到的字符为“奎”,而在Windows上从高字节开始读取,则编码为U+4E59的字符为“乙”。就是说在Windows下以UTF-16编码保存一个字符“乙”,在MacOS环境下打开会显示成“奎”。此类情况说明UTF-16的编码顺序若不加以人为定义就可能发生混淆。

于是在UTF-16编码实现方式中使用了大端序(Big-Endian,简写为UTF-16BE)、小端序(Little-Endian,简写为UTF-16LE)的概念,以及可附加的字节顺序记号解决方案,目前在PC机上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16LE。目前在PC机上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16LE。

在WindowsXP附带的记事本,“另存为”对话框可以选择的四种编码方式除去非Unicode编码的ANSI(对于英文系统即ASCII编码),中文系统则为GB2312或Big5外,其余三种为“Unicode”(对应UTF-16LE)、“Unicodebigendian”(对应UTF-16BE)和“UTF-8”。

UTF-8,是我们最经常看到的编码格式之一。前面已经简单介绍过,这是一种变长编码格式,变长的目的是节省存储空间。

UTF-8使用一至六个字节为每个字符编码(2003年11月UTF-8被RFC3629重新规范,只能使用原来Unicode定义的区域,U+0000到U+10FFFF,也就是说最多四个字节)。

下面介绍其编码规则:

1、128个US-ASCII字符只需一个字节编码(Unicode范围由U+0000至U+007F)。

2、带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文等则需要两个字节编码(Unicode范围由U+0080至U+07FF)。

3、其他基本多文种平面(BMP)中的字元(这包含了大部分常用字,如大部分的汉字)使用三个字节编码(Unicode范围由U+0800至U+FFFF)。

4、其他极少使用的Unicode辅助平面的字元使用四至六字节编码。(Unicode范围由U+10000至U+1FFFFF使用四字节,Unicode范围由U+200000至U+3FFFFFF使用五字节,Unicode范围由U+4000000至U+7FFFFFFF使用六字节)。

对上述提及的第四种字元而言,UTF-8使用四至六个字节来编码似乎太耗费资源了。但UTF-8对所有常用的字元都可以用三个字节表示,而且它的另一种选择,UTF-16编码,对前述的第四种字符同样需要四个字节来编码,所以要决定UTF-8或UTF-16哪种编码比较有效率,还要视所使用的字元的分布范围而定。

下面来看看UTF-8具体怎么编码各种类型的字符:

1、单字节编码,字节由零开始:0zzzzzzz。(z取值0或1,下同)

2、两字节编码:(110yyyyy10zzzzzz)第一个字节由110开始,接着的字节由10开始

3、三字节编码:(01110xxxx10yyyyyy10zzzzzz)第一个字节由1110开始,接着的字节由10开始。

4、四字节编码:(11110www10xxxxxx10yyyyyy10zzzzzz)将由11110开始,接着的字节由10开始

UTF-16是Unicode字符编码五层次模型的第三层:字符编码表。即把Unicode字符集的抽象码位映射为16位长的整数,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。

Unicode的编码空间从U+0000到+10FFFF,共有1,112,064个码位(codepoint)可用来映射字符.Unicode的编码空间可以划分为17个平面(plane),每个平面包含216(65,536)个码位。17个平面的码位可表示为从U+xx0000到U+xxFFFF,其中xx表示十六进制值从0016到1016,共计17个平面。第一个平面称为基本多语言平面(BasicMultilingualPlane,BMP),或称第零平面(Plane0)。其他平面称为辅助平面(SupplementaryPlanes)。基本多语言平面内,从U+D800到U+DFFF之间的码位区段是永久保留不映射到Unicode字符。UTF-16就利用保留下来的0xD800-0xDFFF区段的码位来对辅助平面的字符的码位进行编码。

分平面来介绍UTF-16的实现方式:

1、第一个Unicode平面(码位从U+0000至U+FFFF)包含了最常用的字符。该平面被称为基本多语言平面,缩写为BMP(BasicMultilingualPlane,BMP)。UTF-16与UCS-2编码这个范围内的码位为16比特长的单个码元,数值等价于对应的码位.BMP中的这些码位是仅有的可以在UCS-2中表示的码位.

2、辅助平面(SupplementaryPlanes)中的码位,在UTF-16中被编码为一对16比特长的码元(即32bit,4Bytes),称作代理对(surrogatepair),具体方法是:

算法可理解为:辅助平面中的码位从U+10000到U+10FFFF,共计FFFFF个,即220

=1,048,576个,需要20位来表示。如果用两个16位长的整数组成的序列来表示,第一个整数(称为前导代理)要容纳上述20位的前10位,第二个整数(称为后尾代理)容纳上述20位的后10位。还要能根据16位整数的值直接判明属于前导整数代理的值的范围(210=1024),还是后尾整数代理的值的范围(也是210

=1024)。因此,需要在基本多语言平面中保留不对应于Unicode字符的2048个码位,就足以容纳前导代理与后尾代理所需要的编码空间。这对于基本多语言平面总计65536个码位来说,仅占3.125%.

3、Unicode标准规定U+D800..U+DFFF的值不对应于任何字符.

参考资料:

https://zh.wikipedia.org/wiki/Unicode

https://zh.wikipedia.org/wiki/UTF-8

https://zh.wikipedia.org/wiki/UTF-16

Unicode编码范围

文字部分

(U+0000–U+007F)基本拉丁字符

(U+0080–U+00FF)增补拉丁字符集1

(U+0100–U+017F)拉丁字符扩展集A

(U+0180–U+024F)拉丁字符扩展集B

(U+0370–U+03FF)希腊文字中的科普特字符

(U+0370–U+03FF)希腊字符

(U+0400–U+04FF)西里尔字符

(U+0500–U+052F)增补西里尔字符

(U+0530–U+058F)亚美尼亚字符

(U+0590–U+059F)希伯来字符

(U+0600–U+06FF)阿拉伯字符

(U+0700–U+074F)叙利亚字符

(U+0750–U+077F)增补阿拉伯字符

(U+0780–U+07BF)塔纳字符

(U+07C0–U+07FF)N’Ko

(U+0900–U+097F)梵文字符

(U+0980–U+09FF)孟加拉字符

(U+0A00–U+0A7F)果鲁穆奇字符

(U+0A80–U+0AFF)古吉拉特字符

(U+0B00–U+0B7F)奥里亚字符

(U+0B80–U+0BFF)泰米尔字符

(U+0C00–U+0C7F)泰卢固字符

(U+0C80–U+0CFF)埃纳德字符

(U+0D00–U+0D7F)马拉亚拉姆字符

(U+0D80-U+0DFF)僧伽罗字符

(U+0E00–U+0E7F)泰语字符

(U+0E80–U+0EFF)老挝语字符

(U+0F00–U+0FFF)藏语字符

(U+1000–U+109F)缅甸语字符

(U+10A0–U+10FF)乔治亚风格字母

(U+1100–U+11FF)谚文字母

(U+1200–U+137F)埃塞俄比亚字符

(U+1380–U+139F)增补埃塞俄比亚字符

(U+1400–U+167F)加拿大语字符

(U+13A0–U+13FF)切罗基字符

(U+1680–U+169F)欧甘字符

(U+16A0–U+16FF)Runic字符

(U+1700–U+171F)塔加路字符

(U+1720–U+173F)哈鲁喏字符

(U+1740–U+175F)Buhid字符

(U+1760–U+177F)泰格班瓦字符

(U+1780–U+17FF)高棉字符

(U+1800–U+18AF)蒙古字符

(U+1900–U+194F)林布字符

(U+1950–U+197F)德宏傣文、德傣文,傣讷文字母

(U+1980–U+19DF)新傣泐文字母西双版纳傣文、西傣文,

(U+19E0–U+19FF)高棉符号

(U+1A00–U+1A1F)布吉字符

(U+1B00–U+1B7F)巴厘字符

(U+1E00–U+1EFF)附加拉丁字符扩展集

(U+1F00–U+1FFF)希腊字符扩展集

(U+2C00–U+2C5F)格拉哥里字符

(U+2C60–U+2C7F)拉丁字符扩展集C

(U+2C80–U+2CFF)科普特字符

(U+2D00–U+2D2F)增补乔治亚风格字母

(U+2D30–U+2D7F)提非纳字符

(U+2D80–U+2DDF)埃塞俄比亚字符扩展集

(U+2E80–U+2EFF)增补中日韩汉字部首

(U+2F00–U+2FDF)康熙部首

(U+2FF0–U+2FFF)表意文字描述符

(U+3040–U+309F)平假名

(U+30A0–U+30FF)片假名

(U+3100–U+312F)汉语拼音字母

(U+3130–U+318F)谚文相容字母

(U+3190–U+319F)汉字注释标记

(U+31A0–U+31BF)汉语拼音字母扩展集

(U+31C0–U+31EF)中日韩汉字笔画

(U+31F0–U+31FF)片假名音标扩展集

(U+3400–U+4DBF)中日韩统一汉字扩展集A

(U+4E00–U+9FBF)中日韩统一汉字

(U+A000–U+A48F)Yi音节符号

(U+A490–U+A4CF)Yi字元符号

(U+A720–U+A7FF)拉丁字符扩展集D

(U+A800–U+A82F)SylotiNagri字符

(U+A840–U+A87F)八思巴字符

(U+AC00–U+D7AF)谚文音节字符

(U+F900–U+FAFF)中日韩相容汉字

(U+FB00–U+FB4F)字母表达形式字符:拉丁文相关

(U+FB00–U+FB4F)希伯来字母表达形式字符

(U+FB00–U+FB4F)亚美尼亚文字相关

(U+FB50–U+FDFF)阿拉伯表达形式字符集A

(U+FE50–U+FE6F)小形式变体字符

(U+FE70–U+FEFF)阿拉伯表达形式字符集B

(U+FF00–U+FFEF)半角片假名

(U+FF00–U+FFEF)半角谚文字母

(U+FF00–U+FFEF)全角拉丁字母

(U+10000–U+1007F)线状B表音字符

(U+10080–U+100FF)线状B表意字符

(U+10100–U+1013F)爱琴海数字

(U+10140–U+1018F)古希腊数字

(U+10300–U+1032F)古意大利语字符

(U+10330–U+1034F)哥特字符

(U+10380–U+1039F)乌加里特字符

(U+103A0–U+103DF)古波斯字符

(U+10400–U+1044F)犹他字符

(U+10450–U+1047F)萧伯纳风格字符

(U+10480–U+104AF)奥斯曼字符

(U+10800–U+1083F)塞浦路斯表音字符

(U+10900–U+1091F)腓尼基字符

(U+10A00–U+10A5F)Kharoshihi

(U+12000–U+123FF)楔形文字

(U+12400–U+1247F)楔形文字数字和标点符号

(U+1D200–U+1D24F)古希腊音乐符号

(U+1D360–U+1D37F)筹算数字

(U+20000–U+2A6DF)中日韩统一汉字扩展集B

(U+2F800–U+2FA1F)增补中日韩相容汉字

+++++++++++++++++++++++++++++++++++++++++++++++

符号部分

++++++++++++++++++++++++++++++++++++++++++++++++

(U+0000–U+007F)ASCII标点符号

(U+0000–U+007F)ASCII数字

(U+0000–U+007F)美元、欧元符号

(U+0000–U+007F)控制符C0

(U+0080–U+00FF)增补拉丁字符集1标点符号

(U+0080–U+00FF)日元、英镑和分币

(U+0080–U+00FF)控制符C1

(U+0250–U+02AF)国际音标扩展集

(U+02B0–U+02FF)间隔修饰符

(U+0300–U+036F)组合区分标记

(U+1D00–U+1D7F)音标扩展集

(U+1D80–U+1DBF)增补音标扩展集

(U+1DC0–U+1DFF)增补组合区分标记

(U+2000–U+206F)通用标点符号

(U+2000–U+206F)排版控制符

(U+2000–U+206F)不可见操作符

(U+2070–U+209F)上标和下标字符

(U+20A0–U+20CF)货币符号

(U+20A0–U+20CF)芬尼

(U+20D0–U+20FF)符号组合区分标记

(U+2100–U+214F)字母类符号

(U+2100–U+214F)马克

(U+2150–U+218F)数字形式字符

(U+2190–U+21FF)箭头符号

(U+2200–U+22FF)数学运算符

(U+2300–U+23FF)综合技术符号

(U+2400–U+243F)控制符图示

(U+2440–U+245F)光学字符识别符号

(U+2460–U+24FF)带圈字母和数字

(U+2500–U+257F)框线绘制符号

(U+2580–U+259F)方形组块图符

(U+25A0–U+25FF)几何图形

(U+2600–U+26FF)综合符号

(U+2700-U+27BF)印刷符号

(U+27C0–U+27EF)综合数学符号集合A

(U+27F0–U+27FF)增补箭头符号集合A

(U+2800–U+28FF)盲人点字图符

(U+2900–U+297F)增补箭头符号集合B

(U+2980–U+29FF)综合数学符号集合B

(U+2A00–U+2AFF)增补数学运算符

(U+2B00–U+2BFF)综合符号和箭头

(U+2E00–U+2E7F)增补标点符号

(U+3000–U+303F)中日韩标点符号

(U+3200–U+32FF)带圈中日韩相容表音文字字母和月份符号

(U+3300–U+33FF)中日韩相容符号

(U+4DC0–U+4DFF)《易经》六爻符号

(U+A700–U+A71F)改进的音标字母

(U+FB50–U+FDFF)里亚尔符号

(U+FE00–U+FE0F)变体选择符

(U+FE10–U+FE1F)竖排标点符号

(U+FE20–U+FE2F)半角组合标记

(U+FF00–U+FFEF)全角ASCII标点符号

(U+FF00–U+FFEF)全角ASCII数字

(U+FF00–U+FFEF)全角货币符号

(U+FFF0–U+FFFF)专用符号

(U+1D000–U+1D0FF)拜占庭音乐符号

(U+1D000–U+1D0FF)西方音乐符号

(U+1D200–U+1D24F)古希腊音乐符号

(U+1D300–U+1D35F)《太玄经》符号

(U+1D400–U+1D4FF)数学文字符号

(U+E0000–U+E007F)标记符号

(U+E0100–U+E01EF)增补变体选择符

(U+F0000–U+FFFFD)增补私用A区

(U+100000–U+10FFFD)增补私用B区

(U+0000–U+007F)基本拉丁字符

(U+0000–U+007F)ASCII标点符号

(U+0000–U+007F)ASCII数字

(U+0000–U+007F)美元、欧元符号

(U+0000–U+007F)控制符C0

(U+0080–U+00FF)增补拉丁字符集1

(U+0080–U+00FF)增补拉丁字符集1标点符号

(U+0080–U+00FF)日元、英镑和分币

(U+0080–U+00FF)控制符C1

(U+0100–U+017F)拉丁字符扩展集A

(U+0180–U+024F)拉丁字符扩展集B

(U+0250–U+02AF)国际音标扩展集

(U+02B0–U+02FF)间隔修饰符

(U+0300–U+036F)组合区分标记

(U+0370–U+03FF)希腊文字中的科普特字符

(U+0370–U+03FF)希腊字符

(U+0400–U+04FF)西里尔字符

(U+0500–U+052F)增补西里尔字符

(U+0530–U+058F)亚美尼亚字符

(U+0590–U+059F)希伯来字符

(U+0600–U+06FF)阿拉伯字符

(U+0700–U+074F)叙利亚字符

(U+0750–U+077F)增补阿拉伯字符

(U+0780–U+07BF)塔纳字符

(U+07C0–U+07FF)N’Ko

(U+0900–U+097F)梵文字符

(U+0980–U+09FF)孟加拉字符

(U+0A00–U+0A7F)果鲁穆奇字符

(U+0A80–U+0AFF)古吉拉特字符

(U+0B00–U+0B7F)奥里亚字符

(U+0B80–U+0BFF)泰米尔字符

(U+0C00–U+0C7F)泰卢固字符

(U+0C80–U+0CFF)埃纳德字符

(U+0D00–U+0D7F)马拉亚拉姆字符

(U+0D80-U+0DFF)僧伽罗字符

(U+0E00–U+0E7F)泰语字符

(U+0E80–U+0EFF)老挝语字符

(U+0F00–U+0FFF)藏语字符

(U+1000–U+109F)缅甸语字符

(U+10A0–U+10FF)乔治亚风格字母

(U+1100–U+11FF)谚文字母

(U+1200–U+137F)埃塞俄比亚字符

(U+1380–U+139F)增补埃塞俄比亚字符

(U+1400–U+167F)加拿大语字符

(U+13A0–U+13FF)切罗基字符

(U+1680–U+169F)欧甘字符

(U+16A0–U+16FF)Runic字符

(U+1700–U+171F)塔加路字符

(U+1720–U+173F)哈鲁喏字符

(U+1740–U+175F)Buhid字符

(U+1760–U+177F)泰格班瓦字符

(U+1780–U+17FF)高棉字符

(U+1800–U+18AF)蒙古字符

(U+1900–U+194F)林布字符

(U+1950–U+197F)德宏傣文、德傣文,傣讷文字母

(U+1980–U+19DF)新傣泐文字母西双版纳傣文、西傣文,

(U+19E0–U+19FF)高棉符号

(U+1A00–U+1A1F)布吉字符

(U+1B00–U+1B7F)巴厘字符

(U+1D00–U+1D7F)音标扩展集

(U+1D80–U+1DBF)增补音标扩展集

(U+1DC0–U+1DFF)增补组合区分标记

(U+1E00–U+1EFF)附加拉丁字符扩展集

(U+1F00–U+1FFF)希腊字符扩展集

(U+2000–U+206F)通用标点符号

(U+2000–U+206F)排版控制符

(U+2000–U+206F)不可见操作符

(U+2070–U+209F)上标和下标字符

(U+20A0–U+20CF)货币符号

(U+20A0–U+20CF)芬尼

(U+20D0–U+20FF)符号组合区分标记

(U+2100–U+214F)字母类符号

(U+2100–U+214F)马克

(U+2150–U+218F)数字形式字符

(U+2190–U+21FF)箭头符号

(U+2200–U+22FF)数学运算符

(U+2300–U+23FF)综合技术符号

(U+2400–U+243F)控制符图示

(U+2440–U+245F)光学字符识别符号

(U+2460–U+24FF)带圈字母和数字

(U+2500–U+257F)框线绘制符号

(U+2580–U+259F)方形组块图符

(U+25A0–U+25FF)几何图形

(U+2600–U+26FF)综合符号

(U+2700-U+27BF)印刷符号

(U+27C0–U+27EF)综合数学符号集合A

(U+27F0–U+27FF)增补箭头符号集合A

(U+2800–U+28FF)盲人点字图符

(U+2900–U+297F)增补箭头符号集合B

(U+2980–U+29FF)综合数学符号集合B

(U+2A00–U+2AFF)增补数学运算符

(U+2B00–U+2BFF)综合符号和箭头

(U+2C00–U+2C5F)格拉哥里字符

(U+2C60–U+2C7F)拉丁字符扩展集C

(U+2C80–U+2CFF)科普特字符

(U+2D00–U+2D2F)增补乔治亚风格字母

(U+2D30–U+2D7F)提非纳字符

(U+2D80–U+2DDF)埃塞俄比亚字符扩展集

(U+2E00–U+2E7F)增补标点符号

(U+2E80–U+2EFF)增补中日韩汉字部首

(U+2F00–U+2FDF)康熙部首

(U+2FF0–U+2FFF)表意文字描述符

(U+3000–U+303F)中日韩标点符号

(U+3040–U+309F)平假名

(U+30A0–U+30FF)片假名

(U+3100–U+312F)汉语拼音字母

(U+3130–U+318F)谚文相容字母

(U+3190–U+319F)汉字注释标记

(U+31A0–U+31BF)汉语拼音字母扩展集

(U+31C0–U+31EF)中日韩汉字笔画

(U+31F0–U+31FF)片假名音标扩展集

(U+3200–U+32FF)带圈中日韩相容表音文字字母和月份符号

(U+3300–U+33FF)中日韩相容符号

(U+3400–U+4DBF)中日韩统一汉字扩展集A

(U+4DC0–U+4DFF)《易经》六爻符号

(U+4E00–U+9FBF)中日韩统一汉字

(U+A000–U+A48F)Yi音节符号

(U+A490–U+A4CF)Yi字元符号

(U+A700–U+A71F)改进的音标字母

(U+A720–U+A7FF)拉丁字符扩展集D

(U+A800–U+A82F)SylotiNagri字符

(U+A840–U+A87F)八思巴字符

(U+AC00–U+D7AF)谚文音节字符

(U+F900–U+FAFF)中日韩相容汉字

(U+FB00–U+FB4F)字母表达形式字符:拉丁文相关

(U+FB00–U+FB4F)希伯来字母表达形式字符

(U+FB00–U+FB4F)亚美尼亚文字相关

(U+FB50–U+FDFF)阿拉伯表达形式字符集A

(U+FB50–U+FDFF)里亚尔符号

(U+FE00–U+FE0F)变体选择符

(U+FE10–U+FE1F)竖排标点符号

(U+FE20–U+FE2F)半角组合标记

(U+FE50–U+FE6F)小形式变体字符

(U+FE70–U+FEFF)阿拉伯表达形式字符集B

(U+FF00–U+FFEF)半角片假名

(U+FF00–U+FFEF)半角谚文字母

(U+FF00–U+FFEF)全角拉丁字母

(U+FF00–U+FFEF)全角ASCII标点符号

(U+FF00–U+FFEF)全角ASCII数字

(U+FF00–U+FFEF)全角货币符号

(U+FFF0–U+FFFF)专用符号

(U+10000–U+1007F)线状B表音字符

(U+10080–U+100FF)线状B表意字符

(U+10100–U+1013F)爱琴海数字

(U+10140–U+1018F)古希腊数字

(U+10300–U+1032F)古意大利语字符

(U+10330–U+1034F)哥特字符

(U+10380–U+1039F)乌加里特字符

(U+103A0–U+103DF)古波斯字符

(U+10400–U+1044F)犹他字符

(U+10450–U+1047F)萧伯纳风格字符

(U+10480–U+104AF)奥斯曼字符

(U+10800–U+1083F)塞浦路斯表音字符

(U+10900–U+1091F)腓尼基字符

(U+10A00–U+10A5F)Kharoshihi

(U+12000–U+123FF)楔形文字

(U+12400–U+1247F)楔形文字数字和标点符号

(U+1D000–U+1D0FF)拜占庭音乐符号

(U+1D000–U+1D0FF)西方音乐符号

(U+1D200–U+1D24F)古希腊音乐符号

(U+1D200–U+1D24F)古希腊音乐符号

(U+1D300–U+1D35F)《太玄经》符号

(U+1D360–U+1D37F)筹算数字

(U+1D400–U+1D4FF)数学文字符号

(U+20000–U+2A6DF)中日韩统一汉字扩展集B

(U+2F800–U+2FA1F)增补中日韩相容汉字

(U+E0000–U+E007F)标记符号

(U+E0100–U+E01EF)增补变体选择符

(U+F0000–U+FFFFD)增补私用A区

(U+100000–U+10FFFD)增补私用B区

韩语AC00-D7AF1100-11FF3130-318F

日语3040-309F30A0-30FF31F0-31FF

泰语0e00-0e7f

越南语BasicLatin,Latin-1Supplement,LatinExtended-A,LatinExtended-B,LatinExtendedAdditional

空格002000A0

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至举报,一经查实,本站将立刻删除。

最新文章