Java中文乱码原因

简介:
Java在中文环境中乱码无处不在,而且出现的时间和位置也包涵广泛,具体的解决方法也是千奇百怪。
  但是如果能理清其中的脉络,理解字符处 理的过程,对于解决问题很有指导意义,不至于解决了问题也不知道为什么。
  其实,原因不外乎出在String输入时和输出时。
  首先,Java中的任何String都是以UNICODE格式存在的。
  很多人因为在GBK环境中使用String,会误以为String是GBK格式,实际上Java的String类中并没有存储CharSet信息的字段, 所有String中的字符只会以UNICODE的2字节形式存在。
  String在构造时会逐一把字符按指定编码(默认值为系统编码GBK),转换为UNICODE字符,存入一个Char(无符号16位)数组中。
  如:
  new String(bytes,"gbk");
  并不是说,生成一个GBK编码的字符串,而是按GBK逐一辨认字节数组bytes中的字符转化为UNICODE。
  假设,bytes本是按GB编码的,构造方法在发现一个最高位为0的byte就作为ascii字符处理,最高位为1就和后面的一个byte合成中文字符, 再转换编码。
  可以看出,在这个过程中,编码选择错误就会导致程序按错误方法辨认bytes,乱码就出现了。
  在这里产生的乱码,很多时候还可以通过.getByte()方法修复,还没有后面的严重。
  如:
  "中".getBytes("iso-8859-1");
  因为iso-8859-1中没有中文,所以"中"的值被替换成63,显示'?',无法判断以前是什么值。
  所以如下String将被破坏掉:
  new String("中文".getBytes("iso-8859-1"),"iso-8859-1");
  如果目标编码方式支持中文,就不会损坏String:
  new String("中文".getBytes("utf-8"),"utf-8");
  Java在显示字符时,还需要进行一次转换,把UNICODE字符转换成用于显示的字符编码形式。
  很多时候,这个过程是自动的,会按系统的默认编码(一般是GBK)转换String。
  如果和页面编码不一样,就会出现乱码,虽然在Java的程序中只有一种编码,输出却可以有不同的编码。
  有时候,我们需要用 iso-8859-1格式分解String的中文,以便在不支持中文的系统中存储:
  new String("中文".getBytes("GBK"),"iso-8859-1");
  先通过GBK等支持中文的编码方式分解为byte数组,再做为iso-8859-1字符组成字符串,就避免了被替换为Char(63)。
  =========================================================================
  示例程序
public static void main(String[] args)
{
String str = "中国";
printBytes("中国的UNICODE编码:", str.getBytes(Charset.forName("unicode")));
printBytes("中国的GBK编码:", str.getBytes(Charset.forName("GBK")));
printBytes("中国的UTF-8编码:", str.getBytes(Charset.forName("UTF-8")));
}
public static void printBytes(String title, byte[] data)
{
System.out.println(title);
for (byte b : data)
{
System.out.print("0x" + toHexString(b) + " ");
}
System.out.println();
}
public static String toHexString(byte value)
{
String tmp = Integer.toHexString(value & 0xFF);
if (tmp.length() == 1)
{
tmp = "0" + tmp;
}
return tmp.toUpperCase();
}
  上例的输出结果为:
  中国的UNICODE编码:
  0xFE 0xFF 0x4E 0x2D 0x56 0xFD
  中国的GBK编码:
  0xD6 0xD0 0xB9 0xFA
  中国的UTF-8编码:
  0xE4 0xB8 0xAD 0xE5 0x9B 0xBD

最新内容请见作者的GitHub页:http://qaseven.github.io/
相关文章
|
1月前
|
编解码 Java Apache
Java中文乱码浅析及解决方案
Java中文乱码浅析及解决方案
37 0
|
4月前
|
Java Linux Windows
java 图片上绘制文字Graphics2D linux 中文乱码
java 图片上绘制文字Graphics2D linux 中文乱码
|
4月前
|
Java 容器
9:中文乱码处理-Java Web
9:中文乱码处理-Java Web
38 0
|
Java
Java中文汉字转拼音
实现方法多样,在此列举两种,一种是比较简单,但是实现自定义稍差,还有一种就是自己写实现逻辑
3629 0
|
2月前
|
Java Linux 数据安全/隐私保护
Java【代码 16】将word、excel文件转换为pdf格式和将pdf文档转换为image格式工具类分享(Gitee源码)aspose转换中文乱码问题处理
【2月更文挑战第3天】Java 将word、excel文件转换为pdf格式和将pdf文档转换为image格式工具类分享(Gitee源码)aspose转换中文乱码问题处理
96 0
|
4月前
|
Java Android开发
vscode+java开发环境中文乱码问题~
vscode+java开发环境中文乱码问题~
46 0
|
8月前
|
Java 应用服务中间件
第一季:9SpringMVC中如何解决POST请求中文乱码问题,GET的又如何处理呢【Java面试题】
第一季:9SpringMVC中如何解决POST请求中文乱码问题,GET的又如何处理呢【Java面试题】
39 0
|
9月前
|
Java Maven
【Java项目】多种方式解决SpringBoot中遇到的控制台中文乱码问题
【Java项目】多种方式解决SpringBoot中遇到的控制台中文乱码问题
229 0
|
9月前
|
JSON JavaScript Java
Windows server中java使用phantomjs+echarts-convert生成图表,图片中的中文乱码 解决办法
我这里是用java的 Runtime.getRuntime().exec 调用命令行执行phantomjs加echarts-convert生成柱状图的命令,本来在本地处理的挺成功的,放到服务器上后生成的图片中的中文都是乱码,百度到的基本上都是linux上乱码,让安装字体。
|
10月前
|
Java
Java|如何解决IDEA中控制台中文乱码问题
Java|如何解决IDEA中控制台中文乱码问题
211 0