在Python下使用Txt2Html实现网页过滤代理的教程

2020-02-23 00:38:50

字体：大中小

来源：转载

供稿：网友

在撰写本 developerWorks 系列文章的过程中，我曾遇到过以最佳格式进行撰写的问题。文字处理程序格式都是专用的，在格式之间转换总不能尽如人意，也很麻烦（而且每种格式都会各自将文档绑定到不同的专用工具，这种情况又与开放源码的精神相违背）。HTML 还算中立 -- 也许您现在阅读的文章正是这种格式 -- 但它也添加了标记，而这些标记很容易引起误输入（或者使人束缚于 HTML 增强型编辑器）。DocBook 是一种有趣的 XML 格式，它可以转换成许多目标格式，并且它拥有技术文章（或书籍）的正确语义；但就像 HTML 一样，在撰写过程中会担心许多标记。LaTeX 特别适合复杂的印刷格式；但它也有许多标记，而这些文章并不需要复杂的印刷格式。

为了在写作时能真正省心 -- 特别是要具有平台和工具的中立性 -- 无格式 ASCII 正是最好的选择。但是，因特网（特别是 Usenet）建议在完全无格式文本的基础上，开发一种“智能 ASCII”文档的非正式标准（请参阅参考资料）。“智能 ASCII”只添加了一点额外的语义内容和上下文，而且它们在文本显示中看起来是那么“自然”。电子邮件、新闻组邮件、FAQ、项目自述文件 (README) 和其它电子文档通常包括一些印刷／语义元素，如强调字前后的星号、标题下的下划线、描述文本关系的竖直和水平空格、有选择性的全大写和其它一些信息。Project Gutenberg（请参阅参考资料）是一种惊人的成果，它将许多想法加入其自身格式构思中，并认为“智能 ASCII”是长时间保存和分发好书的最佳选择。即使这些文章不会像文学名著那样经久不衰，仍决定将它们写成“智能 ASCII”格式，并用方便的 Python 脚本将它们自动转换成其它格式。
介绍 Txt2Html

Txt2Html 最初是一个简单的文件转换器，从其名称上就可以看出。但因特网建议在工具上添加几个明显的增强功能。因为有许多读者想以“HTML 化”格式查看的文档都在 http: 或 ftp: 链接的后面，所以工具应该真正直接处理这样的远程文档（而不需要下载／转换／查看循环周期）。因为转换的目标最终是 HTML，通常我们要做的就是在 Web 浏览器中查看转换后的目标文档。

将这些放到一起后，Txt2Html 就成了“基于 Web 的过滤代理”。这个词很奇特，也许恰好能“完全表达其含义”。它们体现了以下想法：程序代表您阅读 Web 页面（或其它资源），以某种方式处理内容，然后以某种比原始页面更好的形式（至少能满足某些特殊目的）向您显示该页面。这种工具的一个很好例子就是 Babelfish 翻译服务（请参阅参考资料）。在通过 Babelfish 运行了 URL 之后，您看到的 Web 页面与原始页面非常相似，但它显示了您能够读懂的文字，而不是您不理解的语言。在某种程度上，所有显示搜索结果页面摘要的搜索引擎所做的都是相同的事情。但那些搜索引擎（按设计）在目标页面的格式以及外观方面有更多的自由度，同时会去掉许多内容。当然，Txt2Html 并不如 Babelfish 那样功能强大；但概念上，它们很大程度上完成相同的事情。请参阅参考资料以获取更多的例子，其中一些还很幽默。

上一篇：Python函数参数类型*、**的区别

下一篇：Python选择排序、冒泡排序、合并排序代码实例