因为一直不信java竟会有不能混排显示多国语言的BUG,这个周末研究了一下Servlet、 jsp的多国语言显示的问题,也就是Servlet的多字符集问题,由于我对字符集的概念还 不是很清晰所以写出的东西未必是准确的,我是这样理解Java中的字符集的:在运行时 ,每个字符串对象中存储的都是编码为UNICODE内码的(我觉得所有的语言中都是有相应 编码的,因为在计算机内部字符串总是用内码来表示的,只不过一般计算机语言中的字 符串编码时平台相关的,而Java则采用了平台无关的UNICODE)。 Java从一个byte流中读取一个字符串时,将把平台相关的byte转变为平台无关的Un icode字符串。在输出时Java将把Unicode字符串转变为平台相关的byte流,如果某个Un icode字符在某个平台上不存在,将会输出一个'?'。举个例子:在中文Windows中,Jav a读出一个"GB2312"编码的文件(可以是任何流)到内存中构造字符串对象,将会把GB2 312编码的文字转变为Unicode编码的字符串,如果把这个字符串输出又将会把Unicode字 符串转化为GB2312的byte流或数组:"中文测试"----->"/u4e2d/u6587/u6d4b/u8bd5"-- --->"中文测试"。 如下例程: byte[] bytes = new byte[]{(byte)0xd6, (byte)0xd0, (byte)0xce, (byte)0xc4, (b yte)0xb2, (byte)0xe2, (byte)0xca, (byte)0xd4};//GBK编码的"中文测试" java.io.ByteArrayInputStream bin = new java.io.ByteArrayInputStream(bytes); java.io.BufferedReader reader = new java.io.BufferedReader(new java.io. Inpu tStreamReader (bin,"GBK")); String msg = reader.readLine(); System.out.PRintln(msg) 这段程序放到包含"中文测试"这四个字的系统(如中文系统)中,可以正确地打印 出这些字。msg字符串中包含了正确的"中文测试"的Unicode编码:"/u4e2d/u6587/u6d4 b/u8bd5",打印时转换为操作系统的默认字符集,是否可以正确显示依赖于操作系统的 字符集,只有在支持相应字符集的系统中,我们的信息才能正确的输出,否则得到的将 会是垃圾。 话入正题,我们来看看Servlet/Jsp中的多语言问题。我们的目标是,任一国家的客 户端通过Form向Server发送信息,Server把信息存入数据库中,客户端在检索时仍然能 够看到自己发送的正确信息。事实上,我们要保证,最终Server中的SQL语句中保存的时 包含客户端发送文字的正确Unicode编码;DBC与数据库通讯时采用的编码方式能包含客 户端发送的文字信息,事实上,最好让JDBC直接使用UNICODE/UTF8与数据库通讯!这样 就可以确保不会丢失信息;Server向客户端发送的信息时也要采用不丢失信息的编码方 式,也可以是Unicode/Utf8。 如果不指定Form的Enctype属性,Form将把输入的内容依照当前页面的编码字符集u rlencode之后再提交,服务器端得到是urlencoding的字符串。编码后得到的urlencodi ng字符串是与页面的编码相关的,如gb2312编码的页面提交"中文测试",得到的是"%D6 %D0%CE%C4%B2%E2%CA%D4",每个"%"后跟的是16进制的字符串;而在UTF8编码时得到的 却是"%E4%B8%AD%E6%96%87%E6%B5%8B%E8%AF%95",因为GB2312编码中一个汉字是16位的 ,而UTF8中一个汉字却是24位的。中日韩三国的ie4以上浏览器均支持UTF8编码,这种方 案肯定包涵了这三国语言,所以我们如果让Html页面使用UTF8编码那么将至少可以支持 这三国语言。 但是,如果我们html/Jsp页面使用UTF8编码,因为应用程序服务器可能不知道这种 情况,因为如果浏览器发送的信息不包含charset信息,至多Server知道读到Accept-La nguage请求投标,我们知道仅靠这个投标是不能获知浏览器所采用编码的,所以应用程 序服务器不能正确解析提交的内容,为什么?因为Java中的所有字符串都是Unicode16位 编码的,HttpServletRequest.request(String)的功能就是把客户端提交的Urlencode编 码的信息转为Unicode字符串,有些Server只能认为客户端的编码和Server平台相同,简 单地使用URLDecoder.decode(String)方法直接解码,如果客户端编码恰好和Server相同 ,那么就可以得到正确地字符串,否则,如果提交地字符串中包含了当地字符,那么将 会导致垃圾信息。 在我提出的这个解决方案里,已经指定了采用Utf8编码,所以,可以避免这个问题 ,我们可以自己定制出decode方法: public static String decode(String s,String encoding) throws Exception { StringBuffer sb = new StringBuffer(); for(int i=0; i<s.length(); i++) { char c = s.charAt(i); switch (c) { case '+': sb.append(' '); break; case '%': try { sb.append((char)Integer.parseInt( s.substring(i+1,i+3),16)); } catch (NumberFormatException e) { throw new IllegalArgumentException(); } i += 2; break; default: sb.append(c); break; } } // Undo conversion to external encoding String result = sb.toString(); byte[] inputBytes = result.getBytes("8859_1"); return new String(inputBytes,encoding); } 这个方法可以指定encoding,如果把它指定为UTF8就满足了我们的需要。 比如用它 解析:"%E4%B8%AD%E6%96%87%E6%B5%8B%E8%AF%95"就可以得到正确的汉字"中文测试"的 Unicode字符串。 现在的问题就是我们必须得到客户端提交的Urlencode的字符串。对于method为get的fo rm提交的信息,可以用HttpServletRequest.getQueryString()方法读到,而对于post方 法的form提交的信息,只能从ServletInputStream中读到,事实上标准的getParameter 方法被第一次调用后,form提交的信息就被读取出来了,而ServletInputStream是不能 重复读出的。所以我们应在第一次使用getParameter方法前读取并解析form提交的信息 。 我是这么做的,建立一个Servlet基类,覆盖service方法,在调用父类的service方 法前读取并解析form提交的内容,请看下面的源代码: package com.hto.servlet; import javax.servlet.http.HttpServletRequest; import java.util.*; /** * Insert the type's description here. * Creation date: (2001-2-4 15:43:46) * @author: 钱卫春 */ public class UTF8ParameterReader { Hashtable pairs = new Hashtable(); /** * UTF8ParameterReader constrUCtor comment. */ public UTF8ParameterReader(HttpServletRequest request) throws java.io.IOExce ption{ super(); parse(request.getQueryString()); parse(request.getReader().readLine()); } /** * UTF8ParameterReader constructor comment. */ public UTF8ParameterReader(HttpServletRequest request,String encoding) throw s java public static String decode(String s) throws Exception { StringBuffer sb = new StringBuffer(); for(int i=0; i<s.length(); i++) { char c = s.charAt(i); switch (c) { case '+': sb.append(' '); break; case '%': try { sb.append((char)Integer.parseInt( s.substring(i+1,i+3),16)); } catch (NumberFormatException e) { throw new IllegalArgumentException(); } i += 2; break; default: sb.append(c); break; } } // Undo conversion to external encoding String result = sb.toString(); byte[] inputBytes = result.getBytes("8859_1"); return new String(inputBytes,"UTF8"); } public static String decode(String s,String encoding) throws Exception { StringBuffer sb = new StringBuffer(); for(int i=0; i<s.length(); i++) { char c = s.charAt(i); switch (c) { case '+': sb.append(' '); break; case '%': try { sb.append((char)Integer.parseInt( s.substring(i+1,i+3),16)); } catch (NumberFormatException e) { throw new IllegalArgumentException(); } i += 2; break; default: sb.append(c); break; } } // Undo conversion to external encoding String result = sb.toString(); byte[] inputBytes = result.getBytes("8859_1"); return new String(inputBytes,encoding); } /** * Insert the method's description here. * Creation date: (2001-2-4 17:30:59) * @return java.lang.String * @param name java.lang.String */ public String getParameter(String name) { if (pairs == null !pairs.containsKey(name)) return null; return (String)(((ArrayList) pairs.get(name)).get(0)); } /** * Insert the method's description here. * Creation date: (2001-2-4 17:28:17) * @return java.util.Enumeration */ public Enumeration getParameterNames() { if (pairs == null) return null; return pairs.keys(); } /** * Insert the method's description here. * Creation date: (2001-2-4 17:33:40) * @return java.lang.String[] * @param name java.lang.String */ public String[] getParameterValues(String name) { if (pairs == null !pairs.containsKey(name)) return null; ArrayList al = (ArrayList) pairs.get(name); String[] values = new String[al.size()]; for(int i=0;i<values.length;i++) values[i] = (String) al.get(i); return values; } /** * Insert the method's description here. * Creation date: (2001-2-4 20:34:37) * @param urlenc java.lang.String */ private void parse(String urlenc) throws javaelse{ name = aPair; value = ""; } if(pairselse{ ArrayList values = new ArrayList(); values.add(value); pairs.put(name,values); } } }catch(Exception e){ throw new java.io.IOException(e.getMessage()); } } /** * Insert the method's description here. * Creation date: (2001-2-4 20:34:37) * @param urlenc java.lang.String */ private void parse(String urlenc,String encoding) throws java.io.IOException { if (urlenc == null) return; StringTokenizer tok = new StringTokenizer(urlenc,"&"); try{ while (tokelse{ name = aPair; value = ""; } if(pairselse{ ArrayList values = new ArrayList(); values.add(value); pairs.put(name,values); } } }catch(Exception e){ throw new java.io.IOException(e.getMessage()); } } } 这个类的功能就是读取并保存form提交的信息,并实现常用的getParameter方法。
package com.hto.servlet; import java.io.*; import javax.servlet.*; import javax.servlet.http.*; /** * Insert the type's description here. * Creation date: (2001-2-5 8:28:20) * @author: 钱卫春 */ public class UtfBaseServlet extends HttpServlet { public static final String PARAMS_ATTR_NAME = "PARAMS_ATTR_NAME"; /** * Process incoming HTTP GET requests * * @param request Object that encapsulates the request to the servlet * @param response Object that encapsulates the response from the servlet */ public void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { performTask(request, response); } /** * Process incoming HTTP POST requests * * @param request Object that encapsulates the request to the servlet * @param response Object that encapsulates the response from the servlet */ public void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { performTask(request, response); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:52:43) * @return int * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue int */ public static java.sql.Date getDateParameter(HttpServletRequest request, Str ing name, boolean required, java.sql.Date defValue) throws ServletException{
String value = getParameter(request,name,required,String.valueOf(defValue));
return java.sql.Date.valueOf(value); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:52:43) * @return int * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue int */ public static double getDoubleParameter(HttpServletRequest request, String n ame, boolean required, double defValue) throws ServletException{ String value = getParameter(request,name,required,String.valueOf(defValue));
return Double.parseDouble(value); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:52:43) * @return int * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue int */ public static float getFloatParameter(HttpServletRequest request, String nam e, boolean required, float defValue) throws ServletException{ String value = getParameter(request,name,required,String.valueOf(defValue));
return Float.parseFloat(value); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:52:43) * @return int * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue int */ public static int getIntParameter(HttpServletRequest request, String name, b oolean required, int defValue) throws ServletException{ String value = getParameter(request,name,required,String.valueOf(defValue));
return Integer.parseInt(value); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:43:36) * @return java.lang.String * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue java.lang.String */ public static String getParameter(HttpServletRequest request, String name, b oolean required, String defValue) throws ServletException{ if(request.getAttribute(UtfBaseServlet.PARAMS_ATTR_NAME) != null) { UTF8ParameterReader params = (UTF8ParameterReader)request.getAttribute(UtfBa seServlet.PARAMS_ATTR_NAME); if (params.getParameter(name) != null) return params.getParameter(name); if (required) throw new ServletException("The Parameter "+name+" Required bu t not provided!"); else return defValue; }else{ if (request.getParameter(name) != null) return request.getParameter(name); if (required) throw new ServletException("The Parameter "+name+" Required bu t not provided!"); else return defValue; } } /** * Returns the servlet info string. */ public String getServletInfo() { return super.getServletInfo(); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:52:43) * @return int * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue int */ public static java.sql.Timestamp getTimestampParameter(HttpServletRequest re quest, String name, boolean required, java.sql.Timestamp defValue) throws Se rvletException{ String value = getParameter(request,name,required,String.valueOf(defValue));
return java.sql.Timestamp.valueOf(value); } /** * Initializes the servlet. */ public void init() { // insert code to initialize the servlet here } /** * Process incoming requests for information * * @param request Object that encapsulates the request to the servlet * @param response Object that encapsulates the response from the servlet */ public void performTask(HttpServletRequest request, HttpServletResponse resp onse) { try { // Insert user code from here. } catch(Throwable theException) { // uncomment the following line when uneXPected exceptions // are occuring to aid in debugging the problem. //theException.printStackTrace(); } } /** * Insert the method's description here. * Creation date: (2001-2-5 8:31:54) * @param request javax.servlet.ServletRequest * @param response javax.servlet.ServletResponse * @exception javax.servlet.ServletException The exception description. * @exception java.io.IOException The exception description. */ public void service(ServletRequest request, ServletResponse response) throws javax.servlet.ServletException, java } 这个就是Servlet基类,它覆盖了父类的service方法,在调用父类service前,创建 了UTF8ParameterReader对象,其中保存了form中提交的信息。 然后把这个对象作为一个 Attribute保存到Request对象中。然后照样调用父类的service方法。 对于继承这个类的Servlet,要注意的是,"标准"getParameter在也不能读到post的 数据,因为在这之前这个类中已经从ServletInputStream中读出了数据了。所以应该使 用该类中提供的getParameter方法。 剩下的就是输出问题了,我们要把输出的信息,转为UTF8的二进制流输出。只要我 们设置Content-Type时指定charset为UTF8,然后使用PrintWriter输出,那么这些转换 是自动进行的,Servlet中这样设置: response.setContentType("text/html;charset=UTF8"); Jsp中这样设置: <%@ page contentType="text/html;charset=UTF8"%> 这样就可以保证输出是UTF8流,客户端能否显示,就看客户端的了。 对于multipart/form-data的form提交的内容,我也提供一个类用来处理,在这个类 的构造子中可以指定页面使用的charset,默认还是UTF-8,限于篇幅不贴出源码,如果 感兴趣可以mail to:vividq@china.com和我探讨。