在UTF-8编码中:一个中文等于三个字节,中文标点占三个字节。
一个英文字符等于一个字节,英文标点占一个字节。
Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个字节。中文标点占两个字节,英文标点。
扩展资料:
UTF-8使用1~4字节为每个字符编码:
1,一个US-ASCIl字符只需1字节编码(Unicode范围由U+0000~U+007F)。
2,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码(Unicode范围由U+0080~U+07FF)。
3,其他语言的字符(包括中日韩文字、东南亚文字、中东文字等)包含了大部分常用字,使用3字节编码。
4,其他极少使用的语言字符使用4字节编码。
参考资料来源:百度百科-UTF-8
在utf8字符集中一个中文字符占2个字节。UTF-8表示与ASCII字符表示是一样的,实际表示ASCII字符的UNICODE字符,将会编码成1个字节。所有其他的UNICODE字符转化成UTF-8将需要至少2个字节。每个字节由一个换码序列开始。第一个字节由唯一的换码序列,由n位连续的1加一位0组成。
扩展资料:
无法从UNICODE字符数判断出UTF-8文本的字节数,因为UTF-8是一种变长编码它需要用2个字节编码那些用扩展ASCII字符集只需1个字节的字符 ISO Latin-1 是UNICODE的子集,但不是UTF-8的子集 8位字符的UTF-8编码会被email网关过滤,因为internet信息最初设计为7位ASCII码。
因此产生了UTF-7编码。 UTF-8 在它的表示中使用值100xxxxx的几率超过50%, 而现存的实现如ISO 2022, 4873, 6429, 和8859系统,会把它错认为是C1 控制码。因此产生了UTF-7.5编码。
本回答被网友采纳