GBK与UTF-8转换时乱码

下面一段代码,将字符串在GBK与UTF-8之间进行两次转换,第一次生成乱码(UTF-8的字节码用GBK解析),第二次反推这个过程,应该会生成正确的字符串.
但是有些中文字却变成了'???'一类的乱码.只是其中的一些...

public class UTF8SimpleTry {
public static void main(String[] args) throws UnsupportedEncodingException {
String str = new String("可怜");
System.out.println(">>>>>"+str);
String str1 = new String(str.getBytes("UTF-8"),"GBK");
String str2 = new String(str1.getBytes("GBK"),"UTF-8");
System.out.println("====="+str2);

}
}

上面的代码会打印出:
>>>>>可怜
=====可???

但是如果str为"我我我我我"就不会有乱码...

我的问题是:这个乱码是如何产生的?
(请认真看完上面的描述再给答案,最好是能针对此问题,也不拒绝有意义的转贴...谢谢....)
本机语言环境:GBK
JAVA文件保存方式:GBK

3: fish0715008 - 秀才三级
是的,用8859_1怎么都不会有乱码..
5: qingdaowpj - 助理二级
我明白了,问题出在str1,str.getBytes("UTF-8")是没有问题的,得到了正确的字节码,但是把这些字节码以GBK的方式解析时,由于位数的差异,生成的乱码中,有些是不可逆(未知),所以逆向编码是生成了错误的字节码str1.getBytes("GBK"),故无法解析了...
[谢谢...做JAVA的对底层了解太少,不知你是否可以提供即时通讯联系方式]
6: simaxunhua - 秀才二级
这里是对上传的附件解析后提供预览,所以和资源文件无关...

举报该问题

推荐答案推荐于2016-03-10

应该编码转换的时候丢失了字节,你没有发现你输入的是偶数个字的时候正常,奇数个的时候乱码,具体的字码长度我也不是很了解
String str1 = new String(str.getBytes("UTF-8"),"GBK");
System.out.println(str1.length());
String str2 = new String(str1.getBytes("GBK"),"UTF-8");
System.out.println(str2.length());); 打印出来的字符串长度就不一样的
UTF8每个汉字占用3个字节，这样在某些地方文字个数的计算就和GBK编码的不一样,UTF-8使用可变长度字节来储存 Unicode字符，例如ASCII字母继续使用1字节储存，重音文字、希腊字母或西里尔字母等使用2字节来储存，而常用的汉字就要使用3字节。辅助平面字符则使用4字节。 GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分，首字节码从0×81至0×FE，尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀，这样扩充的四字节编码，其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE，第二、四个字节编码码位均为0×30至0×39。
按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/2ix9npsv.html

其他回答

第1个回答 2008-09-18

如果我没记错的话，JAVA是自己用UTF－16编码的，不管系统用哪种方式编码。
如果你新建一个字符串，然后用UTF-8读显然是错的，你把那两句改成
String str1 = new String(str.getBytes("UTF-16"),"GBK");
String str2 = new String(str1.getBytes("GBK"),"UTF-16");
这样结果是
>>>>>可怜
=====?可怜
因为UTF-16每个汉字占的字节数和GBK不同（具体是多少我忘了）
所以读出来是？可怜

第2个回答 2008-09-18

但是大家想过没有。我们在向tomcat请求时，假如我们jsp页面的编码是utf-8，那么tomcat自己的编码是iso-8859-1，他会把我们的字符串编码成iso-8859-1。通常我们解决乱码是在servlet或action里通过
String param = new String(str.getBytes("iso-8859-1"),"utf-8");
这样乱码就解决了啊，那这个楼主写的有什么区别呢？

第3个回答 2008-09-18

支持国际化并不是你这样用的。
java本身是utf－16的。
如果不想出现各种编码切换下的乱码，就需要用utf－16的编码。
不知道你做项目或者学习中，有没有用过所谓的资源文件。
MessageResources.properties 这种。
其中的字符是这种形式的\u9879\u76ee\u7ba1\u7406
这样就能保证在任何编码中，都能正确的显示出来。

我记得是这样的。

第4个回答 2008-09-18

Encoding.GetEncoding("utf-8").GetString(Encoding.GetEncoding("utf-8").GetBytes("你的字符串"));

1 2 下一页

相似回答

网页gbk编码改成UTF-8后网页显示乱码,怎么做才能gbk或者gb2312改成后...答：因为网页内容的编码方式使用的是gbk编码，你选择网页的编码其实就是选择对应的解码器，这样的话使用utf-8自然就出错啦~~~要保证正常显示的话，可以写一段代码将网页内容的编码方式改成utf-8

GBK与UTF-8转换时乱码答：应该编码转换的时候丢失了字节,你没有发现你输入的是偶数个字的时候正常,奇数个的时候乱码,具体的字码长度我也不是很了解 String str1 = new String(str.getBytes("UTF-8"),"GBK");System.out.println(str1.length());String str2 = new String(str1.getBytes("GBK"),"UTF-8");System.out...

如何解决GBK转换UTF-8乱码问题答：一、模板文件转换（1）用DW打开模板文件，选择修改——页面属性——标题/编码（2）我们只要将编码选择为UTF-8即可，下面还有一个选择就是：是否包含Unicode签名（BOM），选择不带bom的格式保存。（3）若发现有的文字出现了乱码自己手动更改为对应的中文，从而将全部的模板文章转换为UTF-8格式！二...

win10原来系统编码是GBK,改为utf8后原来没有乱码的文件出现乱码,除了...答：每个操作系统都有自己默认的文本文件编码。大多数应用软件都是按默认的文件编码开发的。你没事去修改系统默认编码，纯属是自己找事，而且完全没有必要。一般的文本文件编辑程序，都可以制定新创建的文件编码，也可以转换到自己想要的文件编码。

GBK与UTF-8多次转换乱码问题,急求解!答：getBytes 的功能是将字符转换成字节数组，gbk.getBytes("GB2312") 用GB2312翻译成字节数组，new String(gbk.getBytes("GB2312"),"UTF-8");把用GB2312翻译成字节数组，再用UTF-8翻译成字符串。兄弟你想下，这里有没有问题？这就是乱码的原因。下面再分析下你具体的问题：GB23121 -》ISO-8859 两...

如何解决代码GBK/UTF-8等字符,编码显示乱码答：打开，中文注释一堆乱码，看得我这个纠结在右下角有个显示当前编码的地方，如图，这次是 -> "UTF-8"，双击它，弹出可选择编码的对话框，选择"GB2312"选择完毕后看着舒心顺畅了，这时候你可以查看注释内容了。或者复制文件内容，复制到别的编码格式的文件中然后说说Notepad++，Notepad++作为一款非常...

大家正在搜

word文件转换乱码为什么pdf转换成word是乱码复制PDF时出现乱码怎么办程序输出时出现乱码为什么下载时出现乱码打印时打印出乱码自动求和时出现乱码怎么办输入数字时出现乱码 excel乱码怎么解决