Unicode编码是什么?

Infocode蓝畅 互联网开发 1073

Unicode是一种字符编码标准,在不同领域的IT中都很常用。 Unicode是国际标准,于1987年创建,是ASCII和其他字符集的替代方法。 截至2020年3月,Unicode字符集版本为13.0,其中包含来自不同语言和字母的143,859个字符。 当前,Unicode字符集包含154种带有设置和表情符号的现代字母。

Unicode编码是什么?
Unicode编码是什么?

Unicode编码规范制定标准:

   把世界上所有能出现的字符,都为其分配一个数字来表示,比如,数字U+7F57被分配给了汉字中的”罗”字。Unicode编码的标准里字符数量一直实在新增(包括一些稀有字符,当然emoji表情字符也属于unicode编码哈哈),19年3月刚发布了Unicode12.0版本,比之前的版本新增了一些字符,现在在标准中的字符一共有137929个,而Unicode编码目前规划了U+0000至U+10FFFF为unicode编码(以世界上字符的数量应该是很久不会考虑扩展的),算一下目前还剩下976183(1114112-137929)个代码点,这976183个代码点是规划在unicode中的数字,但是还没被分配对应的字符。

UTF-8编码:

   UTF-8可以说是当前互联网最常用的编码格式了,它基于Unicode字符集进行编码设计。它最大的特点是变长字节的编码设计,一个字符最长4个字节,最少1个字节,大部分的中文字符占3个字节。

   编码规则如下:

  1.用一个字节表示的字符,第一位设为 0,后面的 7 位对应这个字符的 Unicode 码点。由于这128个字符的unicode完全对照ASCII码,可以说完全向下兼容ASCII码。即ASCII编码的文件可以用UTF-8打开而不乱码;

  2.用一个字节以上表示的字符,假设是N个字节表示这个字符:则该字符第一个字节的前N位都为1,第N+1位为0,剩下的N-1个字节的前两位都设为10,剩下没有主动设值的位置则使用这个字符的Unicode二进制代码点从低位到高位填充,不够用0补足。

   




请在浏览器中启用JavaScript来完成此表单。
请输入姓名或昵称
如果您有任何疑问、需要更多信息或希望与我们建立合作请留言
=
( function() { const style = document.createElement( 'style' ); style.appendChild( document.createTextNode( '#wpforms-17950-field_1-container { position: absolute !important; overflow: hidden !important; display: inline !important; height: 1px !important; width: 1px !important; z-index: -1000 !important; padding: 0 !important; } #wpforms-17950-field_1-container input { visibility: hidden; } #wpforms-conversational-form-page #wpforms-17950-field_1-container label { counter-increment: none; }' ) ); document.head.appendChild( style ); document.currentScript?.remove(); } )();
加载

回复

我来回复
  • 暂无回复内容

已关闭回复。