技术源于生活,服务生活 Terry 随笔

中文在unicode中的编码范围

2016-06-16
Terry

Unicode说明

unicode把编码分为以下几个平面(英文中是plane,可以认为就是不同的区位)

Unicode可以逻辑分为17平面(Plane),每个平面拥有65536( = 216)个代码点,虽然目前只有少数平面被使用。 平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP). 平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP). 平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP). 平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP). 平面4 to 13 (40000–DFFFF)尚未使用 平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP) 平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA) 平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA)

中文编码区间说明

现在网上大多数用于判断中文字符的是 0x4E00~0x9FA5 这个范围是只是“中日韩统一表意文字”

范围 说明
4E00~9FA5 中日韩统一表意文字
2E80-A4CF 中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、
日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、
中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、
中日朝统一表意文字扩展A、易经六十四卦符号、
中日韩统一表意文字、彝文音节、彝文字根
F900-FAFF 中日朝兼容表意文字
FE30-FE4F 中日朝兼容形式
FF00-FFEF 全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母

一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF || F900-FAFF || FE30-FE4F

更多

更详细的表格地址

字符编码笔记:ASCII,Unicode和UTF-8


上一篇 设备界面旋转

Content