MarkLogic 连接查询

2023-12-10

您好，我是 marklogic 和 Xquery 世界的新手。我无法想到在 Marklogic Xquery 中编写以下逻辑的起点。如果有人能给我想法/样本，我将不胜感激，以便我可以实现以下目标：

我想根据 B.XML 中的单词查找来查询 A.XML。查询应生成 C.XML。逻辑应该如下：

A.XML

<root>
<content> The state passed its first ban on using a handheld cellphone while driving in 2004 Nokia Vodafone Nokia Growth Recession Creicket HBO</content>
</root>

B.XML

<WordLookUp>
<companies>
    <company name="Vodafone">Vodafone</company>
    <company name="Nokia">Nokia</company>
</companies>
<topics>
    <topic group="Sports">Cricket</topic>
    <topic group="Entertainment">HBO</topic>
    <topic group="Finance">GDP</topic>
</topics>
<moods>
    <mood number="4">Growth</mood>
    <mood number="-5">Depression</mood>
    <mood number="-3">Recession</mood>
</moods>

C.XML（结果XML）

<root>
    <content> The state passed its first ban on using a handheld cellphone while driving in 2004 Nokia Vodafone Nokia Growth Recession Creicket HBO</content>
    <updatedElement>
        <companies>
            <company count="1">Vodafone</company>
            <company count="2">Nokia</company>
        </companies>
        <mood>1</mood>
        <topics>
             <topic count="1">Sports</topic>
             <topic count="1">Entertainment</topic>
        </topics>
            <word-count>22</word-count>
    </updatedElement>
    </root>

在B.xml中搜索A.xml的每个company/text()，如果找到匹配则创建标签： TAG {company count="该词出现的次数"}company/@name {/公司}
在 B.xml 中搜索 A.xml 的每个主题/文本()，如果找到匹配则创建标记标签 {topic topic="该单词出现的次数"}topic/@group{/topic}
在 B.xml 中搜索 A.xml 的每个心情/文本()，如果找到匹配的 [第一个单词的出现次数 * {/mood[第一个单词]/@number}] + [第二个单词的出现次数 * {/mood[第二个单词]/@number})]...
获取元素的字数。

这是一件有趣的事情，我在这个过程中学到了一些东西。谢谢！

注意：为了获得您想要的结果，我修复了 A.xml 中的拼写错误（“Cricket”->“Cricket”）。

以下解决方案使用两个 MarkLogic 特定的函数：

cts:highlight（用于用节点替换匹配的文本，然后您可以计算节点）
cts:tokenize（用于将给定字符串分解为单词、空格和标点符号部分）

它还包括一些分别针对这两个函数的强大魔法：

特殊变量的动态绑定$cts:text（对于这个特定的用例来说这并不是真正必要的，但我离题了），并且
the data model extension which adds these subtypes of xs:string:
- cts:word,
- cts:space, and
- cts:punctuation.

Enjoy!

xquery version "1.0-ml";

(: Generic function using MarkLogic's ability to find query matches within a single node :)
declare function local:find-matches($content, $search-text) {
  cts:highlight($content, $search-text, <MATCH>{$cts:text}</MATCH>)
  //MATCH
};

(: Generic function using MarkLogic's ability to tokenize text into words, punctuation, and spaces :)
declare function local:get-words($text) {
  cts:tokenize($text)[. instance of cts:word]
};

(: The rest of this is pure XQuery :)
let $content := doc("A.xml")/root/content,
    $lookup  := doc("B.xml")/WordLookUp
return
  <root>
    {$content}
    <updatedElement>

      <companies>{
        for $company in $lookup/companies/company
        let $results := local:find-matches($content, string($company))
        where exists($results)
        return
          <company count="{count($results)}">{string($company/@name)}</company>
      }</companies>

      <mood>{
        sum(
          for $mood in $lookup/moods/mood
          let $results := local:find-matches($content, string($mood))
          return count($results) * $mood/@number
        )
      }</mood>

      <topics>{
        for $topic in $lookup/topics/topic
        let $results := local:find-matches($content, string($topic))
        where exists($results)
        return
          <topic count="{count($results)}">{string($topic/@group)}</topic>
      }</topics>

      <word-count>{
        count(local:get-words($content))
      }</word-count>

    </updatedElement>
  </root>

如果您对上述所有内容的工作原理有任何后续问题，请告诉我。起初，我倾向于使用cts:search or cts:contains，这是 MarkLogic 中搜索的基础。但我意识到这个例子与其说是关于搜索（查找文档），不如说是关于在已经给定的文档中查找匹配的文本。如果您需要以某种方式扩展它以聚合大量文档，那么您需要研究以下附加用途cts:search or cts:contains.

最后一个警告：如果您认为您的内容可能有<MATCH>元素已经存在，您需要在调用时使用不同的元素名称cts:highlight（您可以保证的名称不会与内容的现有元素名称冲突）。否则，您可能会得到错误数量的结果（高于准确计数）。

附录：

我很好奇这是否可以在没有cts:highlight，鉴于cts:tokenize已经为您将文本分解为所有单词。使用这种替代实现可以产生相同的结果local:find-matches（假设您交换函数声明的顺序，因为一个函数声明依赖于另一个函数声明）：

(: Find word matches by comparing them one-by-one :)
declare function local:find-matches($content, $search-text) {
  local:get-words($content)[cts:stem(.) = cts:stem($search-text)]
};

It uses cts:stem将给定单词标准化为其词干，因此，例如搜索“pass”将匹配“passed”等。但是，这仍然不适用于多单词（短语）搜索。所以为了安全起见，我会坚持使用cts:highlight，其中，就像cts:search and cts:contains，可以处理您给它的任何 cts:query （包括像我们上面那样的简单单词/短语搜索）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xquery

marklogic

MarkLogic 连接查询的相关文章

Xquery：相同的测试无论是在 switch/case 还是在 if/then/else 中都有不同的结果

我找不到以下内容的解释我制作了这个测试脚本来解决我之前的问题 https stackoverflow com questions 48190450 xquery not working case expression in a switc
在 XQuery 中搜索两个图节点之间的路径

我正在尝试创建一种算法用于搜索并返回 xQuery 中图形中两个节点之间的路径但到目前为止我没有运气因为它只返回一个节点及其相邻节点首先我应该明确该图是一个有向图每个节点可以有零个一个或多个原点在 XML 中节点仅具有到其
很难让 Saxon 进入 XQuery 模式而不是 XSLT

我很难让 XQuery 工作我下载了 Saxon HE 9 2 它似乎只想与 XSLT 一起工作当我输入 java jar saxon9he jar 我获取 XSLT 的使用信息当我使用 XQuery 的命令语法时它无法识别参数如
SQL Server - XML 的 XQuery

与其他帖子类似我需要从表中检索对 Xml 列应用条件的任何行例如假设您有一个如下所示的 xml 列
用于 Google 表格的 IMPORTXML XPath_Query

我正在使用 GoogleSheetIMPORTXML函数检索一年前的每个日历日期或可用数据的最接近的一年前日期的数据这是数据样本完整的数据源在这里 http data treasury gov feed svc DailyTreasur
如何在 Ubuntu 14.04 上安装 MarkLogic 8？

在 Ubuntu 14 04 上安装 MarkLogic 8 的步骤是什么根据 Alex Bleasdale David Ennis 的说法下载 CentOS 版本然后 Ubuntu 和其他基于 Debian 的发行版使用 DEB 软
XQuery 从 XML 文件中删除属性 onlyChannels="print" 的所有元素

尝试删除所有具有属性的元素onlyChannels print 使用 XQuery 从 XML 元素与onlyChannels print 可以在任何地方并且处于不同的级别输入 XML
SQL：如何获取 XML 数据类型中的属性值？

我的数据库中有以下 xml
XPath / XQuery：在节点中查找文本，但忽略特定后代元素的内容

我试图找到一种方法来搜索节点内的字符串但排除这些节点的某些子元素的内容简单明了我想在文本段落中搜索字符串不包括作为段落子元素的脚注例如我的文件是
从另一个本地主机访问 markLogic

我正在尝试使用 markLogic 作为文档存储库并编写一个可以从我的本地主机 Apache 访问它的客户端在 markLogic 中我创建了一个新的 REST 服务器 8011 现在我想通过希望简单的 HTTP 请求实际上使用 j
限制 xquery 中的结果数量

我有以下内容Xquery code for w in words let freq count corpus eq w div count content2 text eq w order by freq descending return
使用 XQuery 连接 XML 节点

我需要以下输出
提高 SQL Server 中的 Xquery 性能

我有一个 Azure SQL 数据库其中有 1 个表和大量记录超过 75 000 条该表包含 XML 数据类型的列此列如下所示
使用 BaseX 查询 XML 文件

我正在使用 BaseX 本机 XML 数据库来查询 XML 文件我正在使用 BaseX 文档中提供的 BaseXClient java 文件我正在启动 Basex 服务器并使用 BaseXClient java 连接到服务器 creat
跨集群访问日志

我有一个包含 3 个节点的集群我已经配置了应用程序服务器的数据库我想知道集群中各主机生成的访问日志是否相同或者每个主机都有一个单独的访问日志用于记录对其主机的请求我知道集群中的每个主机都维护自己的审核日志文件访问日志的工作方式
XML：如何将一个 xml 文件的内容加载到另一个文件中

我只是希望能够从另一个 xml 文件动态写入 xml 文件的内容 A XML包含
在 SQL Server 中查找 XML 文档中的节点顺序

如何找到 XML 文档中节点的顺序我拥有的是这样的文档
Xquery 对 2 个标签进行分组

下面是我的数据的 XML 部分 a a a a
SQL Server XML查询：查询多个同名子元素

在上一个问题中我想知道如何使用 SQL 来JOIN基于标识符的不同 XML 元素如您所见我获得了几个不错的解决方案here https stackoverflow com questions 60511464 sql server x
在 SQL Server 2008 中使用 XPath/XQuery 将一个属性与另一个属性匹配

考虑 XML 和 SQL declare xml xml

随机推荐

需要一个工具来可视化 ant 执行流程和属性

我想弄清楚如何DITA 开放工具包执行 DITA 到 XHTML 的转换这很困难因为该过程是由分布在多个 ant 文件中的数十个 ant 目标管理的我需要一个可以提供执行流可视化以及 ant 调用的属性依赖性的工具 VizAnt an
什么是“android:allowBackup”？

自从新的 ADT 预览版版本 21 他们有一个新的 lint 警告告诉我清单文件上的下一件事在应用程序标记中应明确将 android allowBackup 设置为 true 或 false 默认情况下为 true 这可能会对应用程
在 Android 中使用 XML 形状设置绘制矩形

我有一个问题我不知道如何解决如果可以请你帮助我在我的应用程序中我必须创建一个自定义视图扩展视图在此视图中我应该绘制很多矩形并通过 canvas drawRect 或 canvas drawRoundRect 创建它们天气晴
SonarQube 安装无法启动服务

我正在 Windows Server 2012 上安装 sonarqube 我已按照以下步骤操作下载sonarqube4 4并解压到C Sonarqube 下载了Java JDK 1 7 0 60和jre 1 7 0 67以及jre7 安
按首字母按字母顺序分组，最好的方法是什么？

这是我的代码 div class widgeter content no padding ul li li ul div
session_create_id 和 session_regenerate_id() 有什么区别？

Doc says session create id 用于为当前会话创建新的会话 ID session regenerate id 使用新生成的会话 ID 更新当前会话 ID 这两个函数有什么区别吗是有一点不同 session crea
为什么 HashMap 会在发生冲突或最坏情况时调整大小

我问的这个问题仅涉及 java 版本直到 1 7 我正在使用反射来找出 HashMap 的当前容量在下面的程序中将 12 个不同的人放入 HashMap 的单个存储桶中使用相同的哈希码然后我将第 13 个唯一的人放在相同或不同的存
使用正则表达式从右到左将数字分成三组

我有一个字符串 1234567890 我想将其分成三组从右到左开始最左边的组范围从一位数字到三位数字取决于剩下多少位数字本质上这与向长数字添加逗号的过程相同只是我还想提取最后三位数字我尝试使用环视但无法找到获取最后三个的方法
VBA For Excel 刷新后事件

我正在使用以下 QueryTable 查询之后 Refresh执行VBA程序结束查询有效但我需要在完成后执行代码 The AfterRefresh事件似乎是我需要的但我无法让它执行 With ActiveSheet QueryTab
如何在Python中使用列名检索SQL结果列值？

有没有办法在Python中使用列名而不是列索引来检索SQL结果列值我正在使用 Python 3 和 mySQL 我正在寻找的语法与 Java 构造非常相似 Object id rs get CUSTOMER ID 我有一个包含相当多列的表
在线程中使用方法时“该类型未满足所需的生存期”

我尝试在 Rust 的线程中使用方法但收到以下错误消息 21 10 21 23 错误类型 closure
uialertview 多次调用[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心真烦人我用谷歌搜索了这个问题发现了一些Relati
b{2};'创建一个 1 元素向量，而不是 2 元素向量？' aria-label='为什么 'std::vector b{2};'创建一个 1 元素向量，而不是 2 元素向量？'> 为什么 'std::vector b{2};'创建一个 1 元素向量，而不是 2 元素向量？

过去几天我一直在研究 C 11 并且想到了一些奇怪的东西如果我想统一初始化一个int int a 5 但是如果我对 std vector 做同样的事情 std vector
ASP.NET Core 中的单元测试自定义密码验证器

我有一个覆盖 PasswordValidator 的 CustomPasswordValidator cs 文件 public class CustomPasswordValidator PasswordValidator
窗体打开后如何从 vb 脚本运行访问事件过程

以下 vb 代码在特定记录处打开数据库表单然后我想运行附加到表单上的按钮的事件过程我尝试创建一个运行该过程的宏但运行 vb 脚本时它说找不到该过程我什至尝试将活动程序从私人更改为公开但没有成功我什至尝试过只输入程序的名称而不是
根据元素数量更改网格布局

我有一个可以包含 1 5 个元素的包装器 div class wrapper div class element div div 我想根据它们的数量更改它们的显示布局 1 个元素 1x1 33 3 宽度 2 个元素 2x1 33 3 宽度
Swing JDialog/JTextPane 和 HTML 链接

我在 swing 中使用 html 页面JTextPane在 JDialog 中在html中我有一个 a href John a 当我通过资源管理器查看网页时当鼠标转到链接时我可以看到mailto 当我按下链接时我收到错误未安装默
php - 获取关联数组的数字索引

我有一个关联数组我需要找到键的数字位置我可以手动遍历数组来找到它但是有没有更好的方法构建到 PHP 中 a array blue gt nice car gt fast number gt none echo find numeric
从 opendaylight-startup-archetype 构建的 OpenDaylight Oxygen Deploy 应用程序

开放日光氧气Maven 3 3 9乌班图16 04卡拉夫4 m2 settings xml cp n m2 settings xml orig wget q O https raw githubusercontent com openday
MarkLogic 连接查询

您好我是 marklogic 和 Xquery 世界的新手我无法想到在 Marklogic Xquery 中编写以下逻辑的起点如果有人能给我想法样本我将不胜感激以便我可以实现以下目标我想根据 B XML 中的单词查找来查询 A

MarkLogic 连接查询

MarkLogic 连接查询 的相关文章

随机推荐

热门标签

MarkLogic 连接查询的相关文章