用于（联合国）结构化文本文档的词法分析器/解析器[关闭]

2024-05-16

有很多脚本解析器和词法分析器（即结构化计算机语言）。但我正在寻找一个可以将（几乎）非结构化文本文档分成更大部分的文档，例如章节、段落等

人们相对容易识别它们：目录、致谢或主体从哪里开始，并且可以构建基于规则的系统来识别其中一些（例如段落）。

我不期望它是完美的，但是有人知道这样一个广泛的“基于块”的词法分析器/解析器吗？或者你能给我指出可能有帮助的文学方向吗？

许多轻量级标记语言，例如markdown http://daringfireball.net/projects/markdown/（顺便说一下SO使用），重构文本 http://docutils.sourceforge.net/rst.html和（可以说）POD http://en.wikipedia.org/wiki/Plain_Old_Documentation与你所说的类似。它们具有最少的语法并将输入分解为可解析的语法片段。您也许可以通过阅读它们的实现来获取一些信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Parsing

Document

lexer

用于（联合国）结构化文本文档的词法分析器/解析器[关闭] 的相关文章

预处理后解析 C++ 源文件

我正在尝试分析c 使用我定制的解析器的文件写在c 在开始解析之前我想摆脱所有 define 我希望源文件在预处理后可以编译所以最好的方法是运行C Preprocessor在文件上 cpp myfile cpp temp cpp or
如何在 Azure 逻辑应用中解析 Excel 电子表格

我需要使用 Azure 逻辑应用从 Excel 电子表格中解析和提取列信息我已经为我的逻辑应用程序设置了从 Outlook 检索最新未读电子邮件的功能此外我的逻辑应用程序执行 FOR EACH 来读取所有附件来自未读电子邮件并确保
Swift 3 中的 JSON 解析

有没有人能够找到一种在 Swift 3 中解析 JSON 文件的方法我已经能够返回数据但在将数据分解为特定字段时我没有成功我会发布示例代码但我已经尝试了很多不同的方法但没有成功并且没有保存任何代码我想要解析的基本格式是这样的提
如何使用 BeautifulSoup 从表中选择特定行？

So I have a question related to a previous question but I realized I needed to go one level more to get an 11 digit NDC
在 JAVA 中使用 SAX 解析器从 XML 文件中提取文本节点

因此我目前正在使用 SAX 尝试从我正在处理的大量 xml 文档中提取一些信息到目前为止提取属性值确实很容易但是我不知道如何从文本节点中提取实际值例如在给定的 XML 文档中
iOS 中的 CSV 逐行解析

我正在 Objective c 中解析 CSV 文件该文件包含如下内容 line 40 Rising searches line 41 nabi avc Breakout line 42 stonewall 700 line 43 med
正则表达式，如果模式在引号中则忽略模式

编写一个非常简单的脚本解析器作为学校项目的一部分虽然这不是必需的但我很好奇是否可以仅使用正则表达式来完成语法类似于 ASP 其中脚本以结尾它只支持一个命令 pr 与echo或Response Write相同现在我正在使用这个正则
使用 SAX 进行 XML 解析 |如何处理特殊字符？

我们有一个 JAVA 应用程序可以从 SAP 系统中提取数据解析数据并呈现给用户使用 SAP JCo 连接器提取数据最近我们抛出了一个异常 org xml sax SAXParseException 字符引用是无效的 XML 字符
LL(1) 解析器中 FIRST 和 FOLLOW 集的用途？

谁能向我解释一下 LL 1 语法中如何使用 FIRST 和 FOLLOW 我知道它们用于语法表构建但我不明白如何使用在 LL 1 解析器中解析器的工作方式是维护一个工作空间该工作空间最初播种到开始符号后跟字符串结束标记通常表示为
有没有办法改变野牛的弹性启动状态？

我在词法分析器中定义了不同的状态这些状态的变化不取决于令牌而是取决于令牌序列类似于模板引擎的工作方式我可以定义更长的标记但我更喜欢这种方法您可以将一个函数粘贴到使用 BEGIN 宏的 l 文件的第三部分中然后从您的 bison
C 的二进制流解析库 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案您能推荐一个经过验证的 C 二进制流解析库吗如果它能像 C 语言所允许的那样具有声明性那就太好了
h264 参考帧

我正在寻找一种在 h264 流中查找参考帧的算法我在不同的解决方案中看到的最常见的方法是查找访问单元分隔符和 IDR 类型的 NAL 不幸的是我检查的大多数流没有 IDR 类型的 NAL 我将不胜感激的帮助问候雅采克 H264 帧由
使用 isdigit 表示浮点数？

a raw input How much is 1 share in that company while not a isdigit print You need to write a number n a raw input How m
是否存在用于解析 ASN.1 或基于它生成 PHP 代码的 PHP 库？

我已经审视过自己了但今天我的 Google fu 似乎并不强我正在努力开发一种标准化协议用于通过 TCP IP 连接在 Apache PHP 服务器和微控制器上的嵌入式 C 代码之间交换数据结构我们使用 ASN 1 表示法我真正想
在Python中比较字符串的最快方法

我正在用 Python 编写一个脚本该脚本将允许用户输入一个字符串该字符串将是指示脚本执行特定操作的命令为了便于讨论我会说我的命令列表是 lock read write request log 现在我希望用户能够输入 log 一词
如何将 RFC 2822 日期/时间解析为 Python 日期时间？

我有 RFC 2822 指定的表格日期比如说Fri 15 May 2009 17 58 28 0000 作为字符串有没有一种快速和或标准的方法来将其作为datetimePython 2 5 中的对象我尝试生成 strptime 格式
解析dev/input/event触摸事件

我能够在 Android 手机上从 dev input event 读取事件然而它们是按一定顺序排列的行代码就像触摸事件给出的那样 3 53 216 3 54 444 3 48 40 3 50 5 0 2 0 0 0 0 如何将它们解
在 C++ 中解析逗号分隔的数字

我有一个简短的问题要问大家我正在尝试编写一个简单的代码来从用户输入中提取数字并将其保存到 int 数组中但我很难思考如何使其工作下面显示的代码适用于单位数但不适用于超过 1 位的数字例如如果用户输入 1 2 3 4 50 60
boost::spirit::qi::语法和可变参数模板

我在使用可变参数模板定义语法时面临一个问题我首先定义一些包含在某些结构中的简单语法例如纬度经度如下所示 include
解析 XML 标签不匹配时出错

随机推荐

Mongodb 数据建模/投票更新（向上和向下）

Mongo 中有一个关于投票数据模型更新查询的示例 http www mongodb org display DOCS MongoDB Data Modeling and Rails MongoDBDataModelingandRails
XCode 7 中的 AWSS3TransferManagerUploadRequest

我今天升级到 Xcode 7 Swift 2 0 我的项目正在使用 CocoaPods 我正在 POD 文件中导入所有与 AWS 相关的文件我已经设置了桥接标头并导入了 Amazon 告诉我的所有文件在升级到 Swift 2 0 之前
Asp.net core默认路由

简化版Startup code public void ConfigureServices IServiceCollection services services AddMvc public void Configure IApplica
在 x86 程序集中存储大量布尔值的最佳方法是什么？

最近我一直在处理充满布尔值的大型数组目前我将它们存储在 bss部分有一个 space指令它允许我创建字节数组但是由于我只需要存储布尔值因此我希望从数组中逐位读取和写入数据目前我能想到的最好方法是有一个 space指令所需存储
调用许多网络服务的最佳方式？

我有 30 家子公司每家都实施了他们的 Web 服务使用不同的技术我需要实现一个Web服务来聚合它们例如所有子公司的Web服务都有一个名为的Web方法GetUserPoint int nationalCode 我需要实现我的网络服
如何比较行内的重叠值？

我似乎对这个 SQL 查询有问题 SELECT FROM appts WHERE timeStart gt timeStart AND timeEnd lt timeEnd AND dayappt boatdate 时间格式为军用时间物流
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
JUnit5 平台启动器 API - 如果没有至少一个测试引擎，则无法创建启动器

我正在尝试升级我们的自动化测试套件的测试能力以接受 JUnit5 测试并遵循JUnit 平台启动器 API 说明 https junit org junit5 docs current user guide launcher api我收到错
如何在Sprite Kit中实现鼠标关节？

我已经在 iOS 上用 Cocos2d Box2d 编写了拖放功能的工作实现我需要将它移植到 Sprite Kit 逻辑非常基本当用户触摸屏幕时找到手指下的精灵在找到的精灵和场景的物理体之间创建鼠标关节将关节的目标设置为触摸位置
numpy：高效执行数组的复杂重塑

我正在将供应商提供的大型二进制数组读入 2D numpy 数组 tempfid M N load data data numpy fromfile file dirname fid dtype numpy dtype i4 convert
在 Chrome 中为

我已经看到这个问题多次出现但没有任何明确的解决方案我正在加载一个简单的视频
MySQL：所有表都正常，但仍然错误 1577（发现事件调度程序使用的系统表已损坏）

从我的系统日志 mysql 1663 ERROR 1577 HY000 at line 1 Cannot proceed because system tables used by Event Scheduler were found da
将 pandas 剪切操作转换为常规字符串

我明白了 pandas cut 操作的输出 0 0 20 1 0 20 2 0 20 3 0 20 4 0 20 5 0 20 6 0 20 7 0 20 8 0 20 9 0 20 如何将 0 20 转换为 0 20 我正在这样做 str
为什么这些类型参数不符合类型细化？

为什么此 Scala 代码无法进行类型检查 trait T type A trait GenFoo A0 S lt T type A A0 trait Foo S lt T extends GenFoo S A S 我不明白为什么类型参数
在 scala ide 上设置正确的 scala 版本

我正在尝试在 scala IDE 上处理一个项目但在 scala IDE 上遇到构建问题在 sbt 上该项目构建得很好我使用了 eclipse sbt 插件并在 scala IDE 上导入了项目存在构建错误这使得 ide 几乎毫
这个等待通知线程语义的真正目的是什么？

我刚刚遇到一些代码它使用等待通知构造通过其其他成员方法与类中定义的线程进行通信有趣的是获取锁后同步范围内的所有线程都会在同一锁上进行定时等待请参见下面的代码片段随后在非同步作用域中线程执行其关键函数即做一些有用的事情1
函数“[<-”将_替换_一个元素，但不会追加_元素_

我在使用时注意到以下几点 lt 我成功于替换元素但不位于追加向量的一个元素例子 VarX lt integer VarX 1 lt 11 lt VarX 2 22 VarX 1 11 Expected the value of VarX
使用 jQuery 保留切换状态[重复]

这个问题在这里已经有答案了可能的重复带 Cookie 的 jQuery 切换 https stackoverflow com questions 2523189 jquery toggle with cookie 我有一个简单的切换但
Chrome 开发工具命中代码但未命中断点

我在 chrome 开发工具上启用了断点并且在一行上有一个断点我知道 chrome 正在运行因为我将断点放在具有以下语句的行上 alert why is this not breaking 如果我在本地主机中找到该文件则断点有效断
用于（联合国）结构化文本文档的词法分析器/解析器[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有很多脚本解析器和词法分析器即结构化计算机语言但我正在寻找一个可以将几乎非结构化文本文档分成更

用于（联合国）结构化文本文档的词法分析器/解析器[关闭]

用于（联合国）结构化文本文档的词法分析器/解析器[关闭] 的相关文章

随机推荐

热门标签