使用 XSL 封装 HTML 中的单词


我需要在 HTML 文档中用标签(例如 span)包装每个单词,例如:

    <title>It doesnt matter</title>
         <div> Text in a div </div>
    Text in a div
        Text inside a p


    <title>It doesnt matter</title>
         <div> <span>Text </span> <span> in </span> <span> a </span> <span> div </span> </div>

             <span>Text </span> <span> in </span> <span> a </span> <span> div </span>                     
               <span>Text </span> <span> in </span> <span> a </span> <span> p </span> 



下面所有三种不同的解决方案都使用 XSLT 设计模式来覆盖身份规则 http://www.dpawson.co.uk/xsl/sect2/identity.html一般保留 XML 文档的结构和内容,并且仅修改特定节点。

一、XSLT 1.0解决方案:

这个简短而简单的转变 (no <xsl:choose>在任何地方使用):

<xsl:stylesheet version="1.0"
 <xsl:output method="xml" omit-xml-declaration="yes" indent="yes"/>
 <xsl:strip-space elements="*"/>

 <xsl:template match="node()|@*">
       <xsl:apply-templates select="node()|@*"/>

 <xsl:template match="*[not(self::title)]/text()"
  <xsl:param name="pText" select=
       "concat(normalize-space(.), ' ')"/>

  <xsl:if test="string-length(normalize-space($pText)) >0">
   <xsl:value-of select=
        "substring-before($pText, ' ')"/>

   <xsl:call-template name="split">
    <xsl:with-param name="pText"
         select="substring-after($pText, ' ')"/>

当应用于提供的 XML 文档时:

        <title>It doesnt matter</title>
        <div> Text in a div </div>
         Text in a div
             Text inside a p


      <title>It doesnt matter</title>

二. XSLT 2.0解决方案:

<xsl:stylesheet version="2.0"
 <xsl:output method="xml" omit-xml-declaration="yes" indent="yes"/>
 <xsl:strip-space elements="*"/>

 <xsl:template match="node()|@*">
       <xsl:apply-templates select="node()|@*"/>

 <xsl:template match="*[not(self::title)]/text()">
  <xsl:for-each select="tokenize(., '[\s]')[.]">
   <span><xsl:sequence select="."/></span>

当此转换应用于同一个 XML 文档(如上)时,会再次生成正确的所需结果:

      <title>It doesnt matter</title>

三、解决方案使用FXSL http://fxsl.sf.net:

使用str-split-to-wordsFXSL 的模板/函数可以轻松实现更复杂的标记化——在任何版本的 XSLT 中:

让我们有一个更复杂的 XML 文档和标记化规则:

        <title>It doesnt matter</title>
        <div> Text: in a div </div>
         Text; in; a. div
             Text- inside [a] [p]

这里有多个分隔符指示单词的开始或结束。在此特定示例中,分隔符可以是:" ", ";", ".", ":", "-", "[", "]".

以下转换使用 FXSL 进行更复杂的标记化:

<xsl:stylesheet version="1.0"

   <xsl:import href="strSplit-to-Words.xsl"/>

   <xsl:output method="xml" indent="yes" omit-xml-declaration="yes"/>
   <xsl:strip-space elements="*"/>

    <xsl:template match="node()|@*">
          <xsl:apply-templates select="node()|@*"/>

    <xsl:template match="*[not(self::title)]/text()">
      <xsl:variable name="vwordNodes">
        <xsl:call-template name="str-split-to-words">
          <xsl:with-param name="pStr" select="normalize-space(.)"/>
          <xsl:with-param name="pDelimiters" 
                          select="' ;.:-[]'"/>

      <xsl:apply-templates select="ext:node-set($vwordNodes)/*"/>

    <xsl:template match="word[string-length(normalize-space(.)) > 0]">
        <xsl:value-of select="."/>


      <title>It doesnt matter</title>

