URL(Uniform Resource Locator ,统一资源定位符)是浏览器寻找信息时所需的资源位置。通过URL这种因特网的标准化名称,人类和应用程序才能找到并使用因特网上大量的数据资源。本文将介绍URL的语法,Web客户端支持的URL快捷方式,URL编码和字符规则等等。
服务器资源名被称为URI(统一资源标识符),而我们常说的URL,实际上是URI的一个子集,也是URI最常见的形式。除此之外,URI还包括URN(其通过名字来识别资源,与它们当前所处位置无关,现仍处于试用阶段)。实际上HTTP应用程序处理的只是URL,所以下面讲的基本都是URL。
1. URL的语法
大多数URL语法都建立在以下9部分构成的通用格式上,其中最重要的方案(scheme)、主机(host)和路径(path):
2. URL快捷方式
URL有两种方式:绝对的和相对的。像上面列举的都是绝对URL,包含了访问资源所需的全部信息。相对URL是一种简写方式,需要相对一个基础URL进行解析。
相对URL到绝对URL的转换处理,首先是要找到基础URL,一般可以显示提供(比如HTML文档定义一个标签显式指定基础URL),或者在封装资源中提供(比如HTML文档中的a标签链接,其基础URL就是这个HTML文档本身)。接着就是通过以下算法把相对URL转换成绝对URL。
3. URL字符与编码
通常来说,URL采用的是US-ASCII字符集,但是这有很多局限性,因此用一种“转义”表示法来表示不安全字符,通过这种编码机制来避开各种限制。这种转义表示法包含一个百分号“%”,后面跟着两个表示ASCII字符的十六进制数。例如URL中的“~”编码成“%7E”,空格编码成“%20”,“%”编码成“%25”。此外URL还有一些字符用作保留字符,如%/.#?;:@&=等等,此处不再赘述。
URL是一种强有力的工具,可以用来命名所有现存对象,也可以很方便地包含一些新格式。但它并不完美,它们表示的是实际的地址而不是准确的名字,这就意味着如果资源被移走了,URL也就失效了(404 not found)。URN就是为了应对这种情况的,无论对象搬移到什么地方,URN都能为对象提供一个稳定的名称。当然,URN背后的思想已经提出一段时间了,但是从URL转换成URN是一项巨大的工程,标准化工作的进程非常缓慢,所以现在因特网资源仍以URL来命名,而且这种趋势仍会保持相当长一段时间。
新闻热点
疑难解答