简化XML读写-用XPath等查询定义简化DOM编码

superadmin · 发表于 2007-10-5 20:38:00

合理使用 XML，XPath 就能够显著地简化和加速应用程序。如果您的工具包中还没有 XPath，那么现在就把它添加进来吧。使用 Python 简要编写的具体示例使查询习语的出现更为自然。

　　XPath 理应成为您的朋友。

　　如果您很少使用 XML 进行开发，并且从未使用过 XPath，那么您将有机会开发性能更强、可维护性更佳的应用程序。这篇文章详细介绍了一些特定的示例，用来演示在简单的 XML 处理中，查询方法能够造成多大的影响。

　　基础知识

　　要确保 XPath 进展顺利，需考虑一些基础原理：

　　下列示例使用 Python 编写

　　以前您可能多次听说 Xsomething 很有用 —— 它设计用于解决特定的和实际的问题，它经过委员会的一致通过，等等。我承认我就听说过。虽然 XPath 与 XML 中所有其他的 Alphabet Soup 不同；但是它确实是非常有用的工具。对于实际投身编程工作的程序员来说，XPath 是最具学习价值的 XML 定义之一，其重要性仅次于 XML 本身和 XHTML。

　　您不需要 XPath。您是一名实际动手编程的 XML 程序员，您的应用程序已经具备了所需的功能。可是关键在于，传统的过程编程不能很好地解决常见的 XML 问题。虽然程序能正确地运行，但是只需少量的查询代码就能使您的程序具有更好的可读性、更易于维护，并且在很多情况下，运行得更快，有时这种效果非常明显。使用这些代码的目的不是要抛弃现有的正常运作的编程方法，而是要学习一些辅助技巧，使用这些技巧可取得立杆见影的效果。

　　developerWork 上 XML 专区的读者大多致力于 C、C++、或 Java 开发。但 Python Python 是一种很值得展示的工具，因为它读起来像流线型的伪代码，并且广泛可用。即便是 Python 的初学者也能理解后继的用法。

　　类似于许多其他语言，Python 支持大量的 XML 库。过去常常会不知道从何处开始。然而，随着 Python 2.5 版本的推出，Fredrik Lundh 的非凡的 ElementTree 模块成为了标准；本文的示例将使用这个库。库本身很小，并能附加到任何 1.5.2 以上的 Python 版本中，参考资料中对此作出了解释。正确安置好 ElementTree 后，执行示例程序所需的一切条件都已就绪。

　　XML 编程模型

　　目前大多数 XML 编程都是基于文档对象模型（Document Object Model，DOM ）。这一模型将 XML 实例视为一个元素树，使用标记对元素进行标识，很多元素都有属性和/或子元素。XML 编程是一项繁重的工作，因为处理必须通过树导航到各个元素。例如，考虑 developerWorks 在开发 developerWorks 文章的内容的过程中所使用的模板 XML 。这看上去与 XHTML 极为相似。它的模式简单易懂，这当然是与工业应用程序（可能是用于采集机器或财务事项的众多细节）中常见的 XML 实例相比而言。即便是使用这个简单的模型，如果您想要报告文本中的所有锚点标记 —— 所有标记为的元素 —— 那么您需要导航整个文档，到一个任意的嵌套深度。简单的非递归过程表达式并不能访问所有的元素，尽管许多库都包含有帮助功能，可以用于遍历树。

superadmin · 发表于 2007-10-5 20:38:13

结果：用于报告所有锚点的一个简单的程序将类似于：

　　清单 1. 基于 DOM 的代码，用于报告所有的锚点

　　 import elementtree.ElementTree

　　 def detail_anchor(element):

　　 if element.tag == "a":

　　 attributes = element.attrib

　　 if "href" in attributes.keys():

　　 print "'%s' is at URL '%s'." % (element.text,

　　 attributes['href'])

　　 if "name" in attributes.keys():

　　 print "'%s' anchors '%s'." % (element.text,

　　 attributes['name'])

　　 def report(element):

　　 detail_anchor(element)

　　 for x in element.getchildren():

　　 report(x)

　　 report(elementtree.ElementTree.parse("draft2.xml").getroot())

　　使用下面描述的 5.5.1 引用模板，将产生类似如下的输出：

　　清单 2. 清单 1 中的程序产生的报告

　　 'related developerWorks content' is at 'http://www.ibm.com/developerworks'.

　　 'entire series' is at 'http://www.ibm.com/...'

　　 ...

　　 'IBM product evaluation versions' is at 'http://www.ibm.com/...'

　　如果有一种标准的方法可用来查询 DOM 实例、解压指定元素、属性和标记的信息，那么可带来多大的简化？您自己看吧：

　　清单 3. 基于 XPath 的与清单 1 等价的代码。

　　 import elementtree.ElementTree

　　 def detail_anchor(element):

　　 if element.tag == "a":

　　 attributes = element.attrib

　　 if "href" in attributes.keys():

　　 print "'%s' is at URL '%s'." % (element.text,

　　 attributes['href'])

　　 if "name" in attributes.keys():

　　 print "'%s' anchors '%s'." % (element.text,

　　 attributes['name'])

　　 for element in \

　　 elementtree.ElementTree.parse("draft2.xml").findall("//a"):

　　 detail_anchor(element)

　　清注意，“//a” 在英语中的意思是 “在整个文档中搜索标记为 ‘a’ 的元素”。从本质上说，清单 3 产生的输出与清单 2 的输出是相同的。

superadmin · 发表于 2007-10-5 20:38:42

比较清单 1 和清单 3。前者已经够简单了 —— 可是后者更加简单。它消除了明确地指定递归的需求。更重要的是，XPath 代码根据 XML（逻辑）标记，而不是结构。标记更接近于人的思维，并且持续时间长，从这个角度来看，结构是相对短暂的实现细节。通过使用更复杂的查询，XPath 的声明性样式与传统的面向结构的过程搜索实现相比，其优势更加明显。

　　本文的意义在于，能够把 XPath 融入到现有的 XML 程序开发中，并能立即获得性能和可维护性上的提高。对于我来说，这更像是在使用汇编程序、编译器、和更高阶的语言：我可以完全使用机器语言编写整个程序，但是学习高生产率的方法会简单划算。此外，XPath 通常能提高手工编码的搜索的性能。

　　可是，这样却产生了一个问题：有方法改进 XPath 吗？是的，当然有 —— 但是有一些限定。XQuery 和 XSLT 是另外两种接受程度与 XPath 相当的 XML 定义（XSLT 可能是它们三者中使用最为广泛的，而 Xquery 的有用实现则最少）。在声明重点上 XSLT 与 XPath 类似，而 Xquery 在 XPath 的查询中加入了过程的功能。两者都能生成模板 —— 简要地说，嵌入可识别的 XML 代码段的查询 —— 或多或少符合语言习惯。这一点值得注意，因为一些 XML 理论家建议把模板作为理想的表示形式。

　　但是整体来说，相对于 XPath 产生的巨大效益而言，XQuery、XSLT 或此类特定于语言的查询包（如 Amara、XQJ、或JAXP）所带来的好处都是递增的。参考资料中提供的 Uche Ogbuji 撰写的论文清晰地比较了采用各种不同方式解决的示例问题。只有在感觉 XML 处理相当复杂的时候，才使用这些更专业的接口。但是现在就开始使用 XPath！

　　其它示例

　　这篇文章的目的是激发您使用 XPath，而不是教您使用它。我希望您可以清楚地认识到学习 XPath 并不会花费太多精力。

　　同时，我们希望知道使用 XPath 可实现哪些功能。清单 3 中的查询使用 //a 作为一个简单的例子。最后，您将学习更复杂的查询功能，例如 /parent/child[@attr='value']，它指定所有 “parent” 的子节点 “child” 并指定属性 “attr” 的值为 “value”。另外两个例子：//@*，它检查所有标记的所有属性；//tr/td　th 检索 tr 里面的所有 td 或 th 元素。

　　性能

　　虽然性能测量总是需要缩小至一种特定的测量方法，但是对 XPath 性能的思考需要一些上下文。通俗地讲，XPath 比您所能达到的速度更快。在大型的、复杂的程序中，性能至关重要，XPath 查询比同等的手工编写的过程代码运行得更快（有时要快很多）。从原则上说，您可使用已有的关于数据内容或布局的知识来编写一个可快速运行的巧妙的查询。但在实践中，使用 XPath 产生的效果类似于使用高级语言（HLL）（而不是汇编程序或 C 语言）所产生的效果：只需少许的工作，开发人员就能够完成一个正确运行的程序，而 HLL 的所有表面上固有的速度缺点都可通过较高级的特定于应用程序的算法来弥补。

　　使用完全相同的方式，XPath 对一些不可忽视问题简化了编码。在这些问题中，速度造成的影响足以使程序员利用空闲时间小心地开发自己的解决方案。基于 XPath 的解决方案不仅更易于纠错和维护，而且至少是速度快。

　　此外，一些 XPath 实现是非常细致地编写的，其内存使用率比普通的过程搜索更高。在这些例子中，基于 XPath 的编码能极大地提高搜索速度 —— 十倍或更高。

　　没有展示特定的测量方法来说明这些问题确实令人沮丧。虽然，任何特定的对比都会产生误导；但是 XPath 的相对性能取决于开发语言、特定的 XPath 实现、XML 查询图像、搜索、和运行时可用内存（大多数情况）的布局。学习如何进行简单的计时，并学习在您的应用程序的数据集上测试 XPath。如果您的经验和我差不多，那么您时常会发现 XPath 只有原生编码一半的速度，对于一些小问题尤为显著，但是与其它语言相比速度还是要快一个级别。

		自动登录	找回密码
密码			注册

全国各地医院查询	重量转换换算	RGB颜色查询	交通标志大全	各类快递查询
简体繁体转换	黄金价格实时走势	万年历查询	实时汇率转换	列车时刻查询
在线翻译工具	CSS中文手册	HTML学习教程	MySQL中文手册	JavaScript中文手册
PHP安全基础手册	PHP5面向对象编程教程	正则表达式系统教程	SQL Server精华	Apache 2.2 中文手册
DOS命令全集指南	windows脚本技术中文版	股票行情查询	历史上的今天	邮编区号查询
长度转换换算	货币汇率转换	常用电话号码	体育彩票查询	手机位置查询
域名Whois信息查询	谷歌PR值查询	台州网站建设	台州网站开发	台州域名注册
天气预报查询	长度转换换算器	在线电子地图	车牌号码查询	中国百家姓查询