偶尔会在数据中看到诸如' 这样的字符,特征如下
以&#开头,中间是一串数字,以;结尾
以&开头,中间一串字符,以;结尾
比如最常见的 或者等价的 
浏览器遇到这些转义符,会转义回来,但如何通过代码识别? org.apache.commons.lang.StringEscapeUtils.unescapeHtml提供了很好的说明
遇到上面的第一种情况,中间是数字的,直接将数字(unicode)转为char
遇到第二情况,中间是字符,只能查映射表了,从映射表中找到字符对应的数字再转换为char 看看代码就一目了然了
看看HTML40如何定义的
再看看BASIC_ARRAY、ISO8859_1_ARRAY、HTML40_ARRAY 分别是什么
BASIC_ARRAY
ISO8859_1_ARRAY
HTML40_ARRAY
再扩展下
从前面可以看到转义字符中间的那段数字是unicode,那么 这个 转移字符可以 随便构造了 ,并不限于上面的定义,比如 中的unicode是20013,那么构造一个转移字符中,经过浏览器的渲染 就变回中了 ,虽然不必这么绕为了显示一个字符,但如果在一些不方便传输特殊字符的场景 就可以派上用途了
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
新闻热点
疑难解答