有很多脚本解析器和词法分析器(即结构化计算机语言)。但我正在寻找一个可以将(几乎)非结构化文本文档分成更大部分的文档,例如章节、段落等
人们相对容易识别它们:目录、致谢或主体从哪里开始,并且可以构建基于规则的系统来识别其中一些(例如段落)。
我不期望它是完美的,但是有人知道这样一个广泛的“基于块”的词法分析器/解析器吗?或者你能给我指出可能有帮助的文学方向吗?
许多轻量级标记语言,例如markdown http://daringfireball.net/projects/markdown/(顺便说一下SO使用),重构文本 http://docutils.sourceforge.net/rst.html和(可以说)POD http://en.wikipedia.org/wiki/Plain_Old_Documentation与你所说的类似。它们具有最少的语法并将输入分解为可解析的语法片段。您也许可以通过阅读它们的实现来获取一些信息。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)