中文附件无法下载的问题分析

2020-10-28 20:09:59

字体：大中小

来源：转载

供稿：网友

详情：当点击附件后，浏览器地址栏已经出现了正确路径（*/测试一下.doc，经测试迅雷亦可下载下来），但并没有出现预期的打开/下载对话框，而显示“无法显示网页”。但有一个doc文件文件却可以。经过比对，唯一的区别在于能下的文件的文件名是11个汉字，而其他的几个分别是8个或10个汉字，即偶数就会出错，真是长见识呀。
百度了一下，搜到如下文章。
在网上经常会看到有人问这样的问题：“我的文件名是中文的，放到Web服务器上让别人下载，却总是提示找不到文件，不过文件明明在那里呀？”。这种问题说到底就是编码的问题，什么UTF8、GBK、BIG5，一看就头疼。
对于这种问题，网上也有人提出了好多解决办法，比如对请求的文件名编码，或者把IE->工具--〉选项--〉高级最下边的始终以UTF8编码发送的勾去掉，也就是不用UTF8编码发送URL，不过因为IE是默认的以UTF编码发送，所以就要每个人都改IE设置。
出现这种问题的大致原因就是：IE把URL中的中文以UTF8编码--->Web服务器接到URL之后，要进行解码，不同的WEB服务器解码规则也是不同的，不过一般都是以默认的字符集来解码，比如中文系统一般都是GBK吧，这样解出来的编码自然就是错的。
我的机器环境是：win2000中文+IIS5 ，下面我们来做个实验
一、在web根目录下新建一个文件，文件名为 "慈勤强.txt"，内容为慈勤强。我们通过网页访问http://127.0.0.1/慈勤强.txt，发现这个没问题，能够正常显示文件内容。
二、我们再建一个文件 "勤强.txt"，内容为勤强。我们通过网页访问http://127.0.0.1/勤强.txt ，结果发现，无法找到网页。
三、我们再建一个文件 "ゅ己.txt" ，内容为 “乱码”。我们通过网页访问http://127.0.0.1/ゅ己.txt ，发现这个也没有问题，可以正常显示。
四、这时，我们再访问一下http://127.0.0.1/勤强.txt ，结果发现又可以访问了，但是很遗憾，出现的内容并不是我们希望的“勤强”，而是"乱码",也就是"ゅ己.txt"文件的内容。
至此,大家应该可以明白一点了,就是"勤强"经过UTF8编码以后,IIS再用GBK解码,就解码成了"ゅ己"。关于编码是挺繁琐的一件事情,在这里就不深入的分析了,大家只要知道UTF8编码,对于中文会编码成3个字节,而Unicode/GBK都是两个字节的. 比如勤强两个字经过UTF8编码以后变成了 %E5%8B%A4%E5%BC%BA ,一共6个字节了,%E5%8B%A4 是勤%E5%BC%BA 是强。
IIS解码则是按照两个字节一个汉字的方式来解码,也就是会把 %E5%8B 按照gbk解码成一个字, %A4%E5 一个%BC%BA 代表一个字。我们可以去查GBK编码表，发现 E58B 是, A4E5是ゅ，BCBA是己。
所以，对于IIS来说，如果非要用中文文件名的话，中文的字数就应该是奇数的，就应该不会有问题（我这台机器得出的结论，可能不适合别的），比如词.txt 茨此次.txt 都可以正常显示，偶数的就会出问题了，比如"我们都是小孩.txt"。对于其他的Web 服务器，比如apache之类的，可能就不是这个样子的了，具体也不清楚。

上一篇：漏洞补丁下载成功安装失败的解决方法

下一篇：常用字符集编码详解（ASCII GB2312 GBK GB18030 unicode UTF-8）