XSLT 中的词频计数器

2023-11-29

我正在尝试用 XSLT 制作一个词频计数器。我希望它使用停用词。我开始了迈克尔·凯的书。但我很难让停用词发挥作用。

此代码适用于任何源 XML 文件。

<?xml version="1.0" encoding="iso-8859-1"?>
<xsl:stylesheet
   version="2.0"
   xmlns:xsl="http://www.w3.org/1999/XSL/Transform">

<xsl:output method="xml" indent="yes"/>

<xsl:template match="/">   
    <xsl:variable name="stopwords" select="'a about an are as at be by for from how I in is it of on or that the this to was what when where who will with'"/>
     <wordcount>
        <xsl:for-each-group group-by="." select="
            for $w in //text()/tokenize(., '\W+')[not(.=$stopwords)] return $w">
            <word word="{current-grouping-key()}" frequency="{count(current-group())}"/>
        </xsl:for-each-group>
     </wordcount>
</xsl:template>

</xsl:stylesheet>

我觉得not(.=$stopwords)这就是我的问题所在。但我不知道该怎么办。

另外,我还将提示如何从外部文件加载停用词。


您的 $stopwords 变量现在是一个字符串;你希望它是一个字符串序列。您可以通过以下任一方式执行此操作:

  • 将其声明更改为

    <xsl:variable name="stopwords" 
      select="('a', 'about', 'an', 'are', 'as', 'at', 
               'be', 'by', 'for', 'from', 'how', 
               'I', 'in', 'is', 'it', 
               'of', 'on', 'or', 
               'that', 'the', 'this', 'to', 
               'was', 'what', 'when', 'where', 
               'who', 'will', 'with')"/>
    
  • 将其声明更改为

    <xsl:variable name="stopwords" 
      select="tokenize('a about an are as at 
                        be by for from how I in is it 
                        of on or that the this to was 
                        what when where who will with',
                        '\s+')"/>
    
  • 从名为(例如)stoplist.xml 的外部 XML 文档中读取它,其形式为

    <stop-list>
      <p>This is a sample stop list [further description ...]</p>
      <w>a</w>
      <w>about</w>
      ...
    </stop-list>
    

    然后加载它,例如和

    <xsl:variable name="stopwords"
      select="document('stopwords.xml')//w/string()"/>
    
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

XSLT 中的词频计数器 的相关文章

  • 将 XML 映射到 C# 中的类

    我希望使用 XmlSerializer 对象将嵌套元素中的多个 XML 属性映射到单个 POCO 类中 XML
  • 解组转义 XML

    在 Go 中 我将如何解码此 XML 响应 我尝试过建立一个自定义UnMarshal方法在我的Answerstruct 但我运气不太好
  • 主题以编程方式设置。如何重新加载 Activity 来应用

    如何在不重新启动整个应用程序的情况下应用主题 如果我这样做startActivity getIntent finish 活动退出并且不重新启动 是否可以简单地重新启动 重新创建活动来应用主题 它的顺序不正确 finish intent ne
  • 通过 XML 将重复事件添加到 Google 日历

    我正在尝试通过协议 API 将重复事件添加到我的日历中 我从在 Google 界面中创建的事件中获取了重复标记的语法 并将其用于我的创建请求中 这是我提交的内容
  • 根据属性值使用 xslt 合并两个元素

    这是我的源文件的样子
  • 单元测试报告的 XML 格式规范(DTD、XSD..)

    许多工具为单元测试报告生成和使用相同的 XML 文件格式 例子 source http junitpdfreport cvs sourceforge net junitpdfreport src resources examples tes
  • 如何在 Spring 属性中进行算术运算?

  • 如何在Android中解析xml类型的HTTPResponse

    我有一个 Android 应用程序 我使用 POST 方法来获取响应 这是我的代码 HttpResponse httpResponse httpclient execute httppost HttpEntity resEntity htt
  • 使用 Jackson 使用不带注释的属性来序列化 xml

    我目前正在使用 Jackson 编写一些代码 将遗留 POJO 序列化为 XML 但我需要使用属性而不是子元素来序列化它们 有没有办法使用 Jackson 来做到这一点 而不需要向遗留类添加注释 有没有办法使用 Jackson 来做到这一点
  • 使用 XML 和 C# 创建 Word 文档

    我已经为报告创建了一个 xml 模板 用户应该能够通过我用 C 创建的程序添加信息以根据自己的需要个性化此报告 如何根据用户输入文本框的内容编辑实体的内容 然后将其显示在 Word 上 网上有大量有关使用 XML 和 C 创建 Word 文
  • 将 xml 反序列化为类,list<> 出现问题

    我有以下 XML
  • 在 Android 中存储和访问 XML 的最佳方式是什么?

    虽然我意识到资源本身是在 XML 文件中定义的 但如果我有一个我希望使用的自己类型的 XML 文件 我是否应该将它们存储在 res xml 中 有没有更好的方法来做到这一点 例如使用资产 然后将它们加载为二进制文件以供另一个 XML 库解析
  • 自定义 XML 文件比较

    我看过很多关于 XML 比较的帖子 但我看过的没有一个能解决我的问题 我们有一些 XML 格式的文本文档 产品描述 带有标题和段落 正在更新 即版本化 我的任务是制作变更摘要 也就是说 我们想要获取两个连续的文件并生成第三个 标题结构 大纲
  • Android - 保存动态更改布局的状态

    我有一个布局 用户可以在其中添加按钮并将其放置在他们想要的位置 我想允许用户保存他们的布局 以便下次打开应用程序时加载它 有谁知道我是否可以将文件保存到 SD 卡上 或者 我可以使用某种layout getXml 方法并将其放入我的应用程序
  • 生成 XML 时如何保留 CDATA 中的换行符?

    我想写一些包含空格字符的文本 例如newline and tab到一个xml文件中 所以我使用 Element element xmldoc createElement TestElement element appendChild xml
  • & 在 XML 代码中导致错误的符号

    我有以下 XML 代码 用于过滤我的 Crm Dynamics 表单中的查找字段 该过滤器根据输入帐户字段的数据使用 但是 帐户字段可以包含 符号 当出现时 会发生错误 表明 XML 格式不正确 有人有解决问题的办法吗 function a
  • 将维基百科中的表格加载到 R 中

    我正在尝试从以下 URL 将最高法院法官表加载到 R 中 https en wikipedia org wiki List of Justices of the Supreme Court of the United States http
  • 记录骆驼路线

    我的项目中有几个 Camel 上下文 如果可能的话 我想以逆向工程方式记录路线 因为我们希望保持与上下文相关的文档最新 最好的方法是什么 我们倾向于预先实际设计路线 并使用来自EIP book http www eaipatterns co
  • Ebay api GetSellerList,解析响应 XML

    我正在使用 eBay 交易 api 来获取当前列出的卖家股票 我正在使用 GetSellerList 调用 我在解析 xml 时遇到问题 然后将其插入到网站商店中 这是 xml 请求
  • 基于xsd模式生成xml(使用.NET)

    我想根据我的 xsd 架构 cap xsd 生成 xml 文件 我找到了这篇文章并按照说明进行操作 使用 XSD 文件生成 XML 文件 https stackoverflow com questions 6530424 generatin

随机推荐

  • 在openCV中从boundingRect创建一个掩码

    假设我根据某些点得到了一个boundingRect 并将其存储到一个 Rect 对象中 我如何使用这些点并在 openCV 中创建掩模 也就是说 边界矩形之外的所有内容都被屏蔽 或设置为白色 我尝试了几种不同的方法 并且能够使用凸包使其工作
  • 使用 jquery $.ajax 和 php 上传文件

    我希望当用户使用 ajax 在输入文件中选择文件时异步上传文件 但接收调用的 php 返回索引未定义 jquery 代码如下 urlimatge change function var filename urlimatge val ajax
  • Scrapy:无法创建项目

    我在安装 scrapy 时遇到问题lxml但后来我在stackoverflow上找到了一些信息 根据这些信息我做了一个sudo easy install lxml有一些错误 我认为 scrapy 已安装 我做出这样的判断的原因是我拒绝做以下
  • 从 NumberPicker 获取 float/double

    我正在尝试https github com SimonVT android numberpicker图书馆和参考是https developer android com reference android widget NumberPick
  • Java批处理:jobContexttransientUserData未通过步骤

    我正在使用 jsr 352 规范的 JBeret 实现 简而言之 这是我的工作配置
  • 同时使用 css 显示图像裁剪图像的顶部和底部

    我正在尝试显示来自 YouTube 的视频图像 显示内容大小 height 180px width 270px 来自 youtube 的图片顶部和底部有一些黑色斑点 ex 我喜欢显示这样的图像 在互联网上搜索答案 发现这些链接很有帮助 但没
  • 为什么 Python 不会通过“-> type”函数定义抛出类型异常? [复制]

    这个问题在这里已经有答案了 在其他语言中 类似示例的任何内容都会引发类型错误 为什么不用Python呢 gt gt gt def foo a int gt str return a 1 gt gt gt foo 5 6 Python 中的类
  • 如何用bash生成0到3之间的随机十进制数?

    我想生成一个从 0 到 3 的随机十进制数 结果应该如下所示 0 2 1 5 2 9 我知道的唯一命令是 echo 0 RANDOM 500 500 但这总是会产生0 xxx 我怎么做 Bash 不支持非整数 您的代码片段刚刚生成一个 50
  • 在 C# 中使用鼠标在运行时调整按钮大小

    我正在使用以下代码在运行时通过鼠标创建和移动按钮 我还想用鼠标调整它们的大小 此代码由 KekuSemau 提供 非常感谢 KekuSemau 的贡献 它帮助了我 private Point Origin Cursor private Po
  • MailTo 在 Android WebView 中不起作用

    我正在开发一个网站的 Android Webview 我有包括mailto用于联系和发送电子邮件给朋友 网站中的代码片段 联系方式 a href email protected a 发送电子邮件给朋友 a href title Email
  • 如何在我的 Android 应用程序中使用 ScreenShotClient

    我正在开发一个应用程序 可以帮助用户捕获 Android 屏幕截图 Android 4 x 我知道 android ICS 上的帧缓冲区已损坏 我听说我们可以使用 ScreenShotClient 来执行此操作 如下所示 Screensho
  • 带下拉列表的 Laravel 5.2 过滤器

    我想做下拉列表过滤 我有一个网页 显示了一些带有标题和类别的帖子 该页面有一个下拉菜单nav blade php 我从类别表动态生成下拉列表 但是 当我选择下拉菜单中的一项 例如类别名称 时 我希望页面仅显示该类别的帖子 我还创建了类别和帖
  • 简单的 istream_iterator 问题

    我是 C 新手 如果这是一个愚蠢的问题 我很抱歉 我似乎无法弄清楚为什么这不起作用 它复制到第一个向量中 并且似乎跳过第二个复制调用 include
  • 在通过 $sce.trustAsHtml 添加的字符串中绑定 Angular js 中的数据

    我正在为遗留系统实现一个网络界面 因此来自服务器的数据是固定的 该服务器数据指定要向用户显示的各种控件 例如组合框 按钮等 我已经解析了服务器数据并通过 sce trustAsHtml 添加了控件的 HTML 问题是控件没有绑定到模型 如果
  • 如何动态获取文本框中datagridview列的总和

    我想获得 datagridview 列的总和并将其显示在文本框中 每次输入后 总和应动态更改 为此 我使用文本框的 textChanged 事件 但是当输入内容时 它不会显示任何结果 我想在文本框中动态获取结果 我想避免使用求和按钮 下面是
  • 导出android库项目以供重用,无需源代码

    出于安全原因 我需要导出没有源代码的库项目 不幸的是 库项目中生成的 jar 文件不包含资源 我不能指望这个图书馆的用户能够处理图书馆所需的任何资源 已经有类似的帖子了 但我还没有看到解决方案 以下食谱曾经有效 尽管我最近没有尝试过 步骤
  • Java 进程 - 无法解压缩 zip 文件

    我正在尝试解压缩一些 zip 文件 它大约有 65 兆 代码片段如下 这个方法实际上解压一个文件 public synchronized void execute Path zipFile final ProcessBuilder buil
  • 动态创建匿名类型? [复制]

    这个问题在这里已经有答案了 我想创建一个可以动态设置属性名称的匿名类型 它不必是匿名类型 我想要实现的就是动态设置任何对象属性名称 它可以是 ExpandoObject 但字典对我不起作用 您有什么建议 Only ExpandoObject
  • Python 3.2.2 open('C:\file.txt') 不起作用

    诚然 我是一个新手 但是 我认为 我按照教程所说的进行了操作 对于我安装的版本 但我无法让 Python 读取文件 其他人遇到过长文件名或路径的问题 但我让我的文件名或路径简短而甜蜜 所以我想 文件本身在一行中包含一个单词 print st
  • XSLT 中的词频计数器

    我正在尝试用 XSLT 制作一个词频计数器 我希望它使用停用词 我开始了迈克尔 凯的书 但我很难让停用词发挥作用 此代码适用于任何源 XML 文件