在utf8字符集中一个中文字符占几个字节

如题所述

在UTF-8编码中:一个中文等于三个字节,中文标点占三个字节。

一个英文字符等于一个字节,英文标点占一个字节。

Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个字节。中文标点占两个字节,英文标点。

扩展资料:

UTF-8使用1~4字节为每个字符编码:

1,一个US-ASCIl字符只需1字节编码(Unicode范围由U+0000~U+007F)。

2,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码(Unicode范围由U+0080~U+07FF)。

3,其他语言的字符(包括中日韩文字、东南亚文字、中东文字等)包含了大部分常用字,使用3字节编码。

4,其他极少使用的语言字符使用4字节编码。

参考资料来源:百度百科-UTF-8

温馨提示:答案为网友推荐,仅供参考
第1个回答  2019-10-17

在utf8字符集中一个中文字符占2个字节。UTF-8表示与ASCII字符表示是一样的,实际表示ASCII字符的UNICODE字符,将会编码成1个字节。所有其他的UNICODE字符转化成UTF-8将需要至少2个字节。每个字节由一个换码序列开始。第一个字节由唯一的换码序列,由n位连续的1加一位0组成。

扩展资料:

无法从UNICODE字符数判断出UTF-8文本的字节数,因为UTF-8是一种变长编码它需要用2个字节编码那些用扩展ASCII字符集只需1个字节的字符 ISO Latin-1 是UNICODE的子集,但不是UTF-8的子集 8位字符的UTF-8编码会被email网关过滤,因为internet信息最初设计为7位ASCII码。

因此产生了UTF-7编码。 UTF-8 在它的表示中使用值100xxxxx的几率超过50%, 而现存的实现如ISO 2022, 4873, 6429, 和8859系统,会把它错认为是C1 控制码。因此产生了UTF-7.5编码。

本回答被网友采纳
第2个回答  推荐于2017-11-28
占2个字节的:〇
占3个字节的:基本等同于GBK,含21000多个汉字
占4个字节的:中日韩超大字符集里面的汉字,有5万多个本回答被提问者采纳
第3个回答  2011-11-29
大部分是3个字节, 也有两个和四个的,但极其少数
第4个回答  2011-12-02
刚看了教程 一个中文字符 占 3个字节!

在 utf-8格式下!
相似回答