Unicode编码是什么？

Infocode蓝畅 3年前互联网开发 1280

Unicode是一种字符编码标准，在不同领域的IT中都很常用。 Unicode是国际标准，于1987年创建，是ASCII和其他字符集的替代方法。截至2020年3月，Unicode字符集版本为13.0，其中包含来自不同语言和字母的143,859个字符。当前，Unicode字符集包含154种带有设置和表情符号的现代字母。

Unicode编码规范制定标准：

　　　把世界上所有能出现的字符，都为其分配一个数字来表示，比如，数字U+7F57被分配给了汉字中的”罗”字。Unicode编码的标准里字符数量一直实在新增（包括一些稀有字符，当然emoji表情字符也属于unicode编码哈哈），19年3月刚发布了Unicode12.0版本，比之前的版本新增了一些字符，现在在标准中的字符一共有137929个，而Unicode编码目前规划了U+0000至U+10FFFF为unicode编码（以世界上字符的数量应该是很久不会考虑扩展的），算一下目前还剩下976183（1114112-137929）个代码点，这976183个代码点是规划在unicode中的数字，但是还没被分配对应的字符。

UTF-8编码：

　　　UTF-8可以说是当前互联网最常用的编码格式了，它基于Unicode字符集进行编码设计。它最大的特点是变长字节的编码设计，一个字符最长4个字节，最少1个字节，大部分的中文字符占3个字节。

　　　编码规则如下：

　　1.用一个字节表示的字符，第一位设为 0，后面的 7 位对应这个字符的 Unicode 码点。由于这128个字符的unicode完全对照ASCII码，可以说完全向下兼容ASCII码。即ASCII编码的文件可以用UTF-8打开而不乱码；

　　2.用一个字节以上表示的字符，假设是N个字节表示这个字符：则该字符第一个字节的前N位都为1，第N+1位为0，剩下的N-1个字节的前两位都设为10，剩下没有主动设值的位置则使用这个字符的Unicode二进制代码点从低位到高位填充，不够用0补足。

请在浏览器中启用JavaScript来完成此表单。
需要咨询的内容 验证码 手机号

姓名 *请输入姓名或昵称
手机号 *
需要咨询的内容 *如果您有任何疑问、需要更多信息或希望与我们建立合作请留言
验证码 *

=

我来回复

暂无回复内容

已关闭回复。

Unicode编码是什么？

Unicode编码规范制定标准：

回复

相关问题