开源的基于规则的模式匹配/信息提取框架？ [关闭]

2024-01-09

我正在购买一个开源框架，用于编写自然语言语法规则，以通过注释进行模式匹配。您可以将其视为正则表达式，但在标记而不是字符级别进行匹配。这样的框架应该使匹配标准能够引用附加到输入标记或跨度的其他属性，以及在操作中修改此类属性。

我知道三个选项符合此描述：

GATE 基于注释的 Java 表达式 (JAPE) http://gate.ac.uk/sale/tao/splitch8.html#chap%3ajape
斯坦福 CoreNLP 的 TokensRegex http://nlp.stanford.edu/software/tokensregex.shtml#Mail
UIMA http://uima.apache.org/ Ruta http://uima.apache.org/ruta.html (Tutorial http://uima.apache.org/gscl13.html#gscl.tutorial)
图表达式 (GExp) http://code.google.com/p/graph-expression/*

目前还有其他类似的选择吗？

相关工具

虽然我知道一般的解析器生成器像Antlr http://www.antlr.org/也可以达到这个目的，我正在寻找更适合自然语言处理或信息提取的东西。
UIMA http://uima.apache.org/包括一个正则表达式注释器 http://uima.apache.org/d/uima-addons-current/RegularExpressionAnnotator/RegexAnnotatorUserGuide.html用于在 XML 中声明规则的插件，但似乎是在字符而不是高级对象上操作。
我知道这种任务通常是通过统计模型来执行的，但对于狭窄的结构化领域，手工制定规则是有好处的。

* 对于 GExp，“规则”实际上是在代码中实现的，但由于选项太少，我选择包含它。

您还可以检查 HTQL。它支持标记的正则表达式搜索。从美国地址搜索州和邮政编码的示例是：

a=htql.RegEx(); 
a.setNameSet('states', states);
a.reSearchList(address.split(), r"&[ws:states]<,>?<\d{5}>", case=False)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Text

opensource

NLP

named

informationextraction

开源的基于规则的模式匹配/信息提取框架？ [关闭] 的相关文章

如何使用 python 中的 spacy 库将句子转换为问题 [请参阅下面的我的代码进行更正]

我需要使用 python 中的 spacy 将任何句子转换为问题我下面的代码太长了我需要做更多的工作才能将任何句子完成为问题格式现在在这段代码中我根据以下条件制定条件是形式需要形式有形式做形式通过检查过去时和现在时输入尼娜拉
Perl 脚本中的大小写敏感性 - 如何使其不敏感？

我如何更改以下马尔可夫脚本以将大写和小写单词视为相同整个想法是帮助提高马尔可夫文本生成器的输出质量就目前情况而言如果您在其中插入 99 个小写句子和 1 个大写句子您几乎总是会在输出中找到大写句子的非标记化版本 Copyright
tkinter 中从右到左的文本

我使用的是 RTL 语言并且我需要我的文本为 RTL 有办法做到吗我怎样才能证明我的文字合理例子 from tkinter import from tkinter constants import root Tk text Text
将文件夹名称添加到输出 Pig Latin

我在 HDFS 中有下一个目录结构 logs folder 2021 03 01 log1 log2 log3 2021 03 02 log1 log2 2021 03 03 log1 log2 日志由文本数据组成数据中没有日期因为它已
正则表达式从文本文件中提取文本块？

我需要使用正则表达式从 Python 文本文件中提取标题及其下方的文本块但我发现这很困难我转换了这个PDF https www docdroid net rduS8oC pdfsam doc pdf文本现在看起来像这样到目前为止我
可绘制资源中带有形状的文本

我可以在可绘制资源中创建文本形状吗我在谷歌上搜索了很多但什么也没找到这是我的绘图文件
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
用于图像中文本检测的霍夫变换算法[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案霍夫变换算法是用于文本行检测和边缘检测的算法之一霍夫变换算法可以用于检测图像中的文本吗这道题在java中的流程或者实现应该是怎样的
使用 nltk 进行分块

如何从给定模式的句子中获取所有块示例 NP
下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
python 中单词的动名词形式

我想获得字符串的动名词形式我还没有找到调用库来获取动名词的直接方法我应用了以 ing 结尾的单词的规则但是因为异常导致我收到了一些错误然后我检查 cmu 单词以确保生成的动名词单词正确代码如下 import cmudict im
HTML5 文本画布在文本宽度大于允许的最大宽度时旋转

朋友们我发现旋转文本画布对象有点棘手问题是我正在绘制一个图形但有时每个条形的宽度小于该条形的值所以我必须将值评定为 90 度在大多数情况下它都会起作用我正在做以下事情 a function x y text maxWid
使用我自己的训练示例训练 spaCy 现有的 POS 标记器

我正在尝试在我自己的词典上训练现有的词性标注器而不是从头开始我不想创建一个空模型在spaCy的文档中它说加载您想要统计的模型下一步是使用add label方法将标签映射添加到标记器但是当我尝试加载英文小模型并添加标签图时
将本地文本文件读取到 JavaScript 数组中[重复]

这个问题在这里已经有答案了我的 JavaScript 文件位于同一文件夹中有一个文本文件这两个文件都存储在我的本地计算机上 txt 文件每一行只有一个单词如下所示 red green blue black 我想尽可能高效地读取每一行
将简单的单色绘图图像转换为二维文本数组

我正在尝试开发一种算法将简单的单线图像即迷宫转换为文本二维数组例如下面的图像它将被转换为以下文本数组
生成易于记忆的随机标识符

与所有开发人员一样我们在日常工作中不断处理某种标识符大多数时候它与错误或支持票有关我们的软件在检测到错误后会创建一个包该包的名称由时间戳和版本号格式化这是创建合理唯一标识符以避免混淆包的一种廉价方法例子错误报告 20101
如何训练斯坦福 NLP 情感分析工具

地狱大家我正在使用斯坦福核心 NLP 包我的目标是对推文直播进行情感分析按原样使用情感分析工具对文本态度的分析非常差许多积极因素被标记为中性许多消极因素被评为积极我已经在文本文件中获取了超过一百万条推文但我不知道如何实际获
Python：如何删除圆括号内的文本？

我试过了但没用 return re sub myResultStats text 建议 thanks 尝试这个 return re sub myResultStats text 括号表示捕获组因此您必须转义它们
ANEW 字典可以用于 Quanteda 中的情感分析吗？

我正在尝试找到一种方法来实施英语单词情感规范荷兰语以便使用 Quanteda 进行纵向情感分析我最终想要的是每年的平均情绪以显示任何纵向趋势在数据集中所有单词均由 64 名编码员按照 7 分李克特量表在四个类别上进行评分这提

随机推荐

如何使用 OpenCv 查找图像上的角点

我正在尝试找到图像上的角点我不需要轮廓只需要 4 个角点我将使用 4 个角来改变视角我正在使用 Opencv 但我需要知道找到角点的步骤以及我将使用什么函数 My images will be like this without r
检查 Android 设备上的 NFC 功能

这是为了回应question https stackoverflow com questions 5805034 detecting nfc on android devices Step 1 Put this in your manife
Z3 对指数的支持

我是 Z3 的新手我试图了解它是如何工作的以及它能做什么和不能做什么我知道Z3至少有some通过幂运算符支持指数请参阅Z3py 使用 pow 函数返回未知方程 https stackoverflow com questions 3
如何使用 Java 计算 Selenium WebDriver 中的 HTML 子标签数量

在 Selenium JAVA WebDriver 中如何计算子标签例子 div class subcategory container div class products container div class product ro
MongoDB - 多对多关系？

我很好奇如何构建一个具有多对多关系可能有数万条记录的 MongoDB 假设您有一个餐厅数据库可以跟踪大量餐厅以及所有入住过这些餐厅的人因此用户可能想要查找一个人并查看他们已签到的所有餐厅而且还想查找一家餐厅并查看所有已签到的人如
“react-native弹出”：无法识别的命令“弹出”

我正在尝试为我的反应本机项目重新创建 ios 和 android 文件夹据我所知这是通过以下命令完成的 react native eject 但我收到错误 error Unrecognized command eject 我做错了什么吗
从 ItemDataBound 事件中的转发器控件获取值

如何在 ItemDataBound 事件中获取转发器控件的值我写了下面的asp代码
处理推文时使用 JSON 或正则表达式

哪种方法更快使用 JSON 解析器 python 2 6 或正则表达式来获取相关数据由于数据量巨大我认为使用一种方法与其他方法相比在时间上会有很大差异假设你在问什么我相信您会问通过反序列化序列化 JSON 字符串或通过正则表达式
返回 R 中别名系数的 VIF

我想知道是否有人可以帮助我解决以下问题当我在各种解释变量之间进行 VIF 分析时会出现以下错误消息 test lt vif lm Spring Autumn Oct Nov Dec Jan Feb Mar Apr May Jun Jul
重写 HashSet 的 Contains 方法

有人能告诉我如何重写 HashSet 的 contains 方法以使用正则表达式匹配而不是仅使用 equals 吗或者如果不覆盖我如何添加一个方法来使用正则表达式模式基本上我希望能够在包含字符串的 HashSet 上运行正则表达式
C# - 使用 HTMLAgilityPack 获取 JavaScript 变量值

我目前有 2 个 JavaScript 变量需要从中检索值 HTML 由一系列没有 id name 属性的嵌套 DIV 组成是否可以使用 HTMLAgilityPack 从这些变量中检索数据如果是这样我将如何去做如果不是需要什么
如何在magento中添加密件抄送或抄送

我不知道如何在以下编码中添加抄送或密件抄送我尝试了密件抄送但邮件无法发送请有人帮忙代码是 data array name gt username to user id gt to userid email gt email tele
在 MyEclipse 中开发 Maven 战争应用程序值得吗？

我的组织已做出上层决定将 Maven 作为 Java 项目的标准构建工具我的任务是帮助我们的本地团队将项目迁移到 Maven MyEclipse IDE 是正在发挥作用的核心工具之一 MyEclipse 似乎与 Maven 团队有着一段
蟒蛇熊猫。日期对象由单独的列分割。

我在Python pandas 中将日期写为 1 31 2010 为了应用线性回归我想要 3 个单独的变量天数月数年数将 pandas 中包含日期的列分成 3 列的方法是什么另一个问题是将天数相同但分为 3 组 1 10 11
当测试一起运行时，所有测试中使用的外部库模拟补丁不起作用

我正在使用 Python 的模拟库和单元测试我正在为一个类编写单元测试该类在其方法之一中使用外部库的函数根据情况该函数返回不同的值假设我想测试 A 类 from external library import function f
Ubuntu 服务器上的 PHP PDO 到 MS SQL Server

我正在尝试使用 PDO 连接到 MS SQL Server 我尝试过使用这个 db new PDO sqlsrv server server database databaseName username password 我读到不再支持 s
如何将 jQuery 对象转换为字符串？

如何将 jQuery 对象转换为字符串我假设您需要完整的 HTML 字符串如果是这样的话类似这样的事情就可以解决问题 div append item of interest clone html 这有更深入的解释here http j
为Excel饼图添加数据标签

我正在绘制带有一些数据的饼图 private void DrawFractionChart Excel Worksheet activeSheet Excel ChartObjects xlCharts Excel Range xRange
java android - 如何将资源中的html设置为TextView？

是否有可能将 html 从 res raw 加载到 TextView 中我知道我可以使用 WebView 但是该死的透明度并不总是有效并非在每个设备上 myTextView setText Html fromHtml readTxt 此
开源的基于规则的模式匹配/信息提取框架？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在购买一个开源框架用于编写自然语言语法规则以通过注释进行模式匹配您可以将其视为正则表达式但

开源的基于规则的模式匹配/信息提取框架？ [关闭]

开源的基于规则的模式匹配/信息提取框架？ [关闭] 的相关文章

随机推荐

热门标签