以编程方式将 LaTeX 代码转换/解析为纯文本

2023-12-22

我有几个 C++/Python 代码项目，其中使用 LaTeX 格式的描述和标签来生成使用 LaTeX+pstricks 制作的 PDF 文档或图表。然而，我们也有一些纯文本输出，例如 HTML 版本的文档（我已经有代码来为此编写最小标记）和不支持 TeX 的绘图渲染器。

对于这些，我想消除例如所需的 TeX 标记。代表物理单位。这包括不间断（薄）空格、\text、\mathrm 等。将 \frac{#1}{#2} 之类的内容解析为 #1/#2 以获得纯文本输出（以及使用 MathJax 作为 HTML）。由于我们目前拥有的系统，我需要能够通过 Python 执行此操作，即ideally我正在寻找一个 Python 包，但我可以从 Python 调用并捕获输出字符串的非 Python 可执行文件也可以。

我知道TeX StackExchange 网站上有类似的问题 https://tex.stackexchange.com/questions/6431/options-for-converting-latex-to-plain-text，但没有任何真正的编程解决方案：我研究过 detex、plasTeX 和 pytex，它们看起来都有点死了，并没有真正做我需要的事情：TeX 字符串到代表的编程转换纯文本字符串。

我可以尝试使用例如编写一个基本的 TeX 解析器pyparsing，但是a）这可能充满陷阱，我们将不胜感激，b）肯定有人以前尝试过，或者知道一种方法来连接TeX本身以获得更好的结果？

Update:感谢您的所有回答...这确实似乎是一个有点尴尬的要求！我可以用较少的 LaTeX 解析来凑合，但考虑解析器而不是循环中的正则表达式负载的原因是我希望能够很好地处理嵌套宏和多参数宏，并获得大括号匹配才能正常工作。然后我可以例如首先减少与 txt 不相关的宏，例如 \text 和 \mathrm，然后处理与 txt 相关的宏，例如 \frac 最后...甚至可能使用适当的括号！好吧，我可以梦想......目前正则表达式并没有做那么糟糕的工作。

我知道这是一篇旧文章，但由于这篇文章经常出现在 Latex-python-parsing 搜索中（如仅从 .tex 格式的 arXiv 文章中提取正文文本 https://stackoverflow.com/questions/49779853/extract-only-body-text-from-arxiv-articles-formatted-as-tex），把这个留给下面的人：这是一个 Python 中的 LaTeX 解析器，支持对解析树的搜索和修改，https://github.com/alvinwan/texsoup https://github.com/alvinwan/texsoup。以下是示例文本以及如何通过 TexSoup 与其交互的示例文本，摘自自述文件。

from TexSoup import TexSoup
soup = TexSoup("""
\begin{document}

\section{Hello \textit{world}.}

\subsection{Watermelon}

(n.) A sacred fruit. Also known as:

\begin{itemize}
\item red lemon
\item life
\end{itemize}

Here is the prevalence of each synonym.

\begin{tabular}{c c}
red lemon & uncommon \\
life & common
\end{tabular}

\end{document}
""")

以下是如何导航解析树。

>>> soup.section  # grabs the first `section`
\section{Hello \textit{world}.}
>>> soup.section.name
'section'
>>> soup.section.string
'Hello \\textit{world}.'
>>> soup.section.parent.name
'document'
>>> soup.tabular
\begin{tabular}{c c}
red lemon & uncommon \\
life & common
\end{tabular}
>>> soup.tabular.args[0]
'c c'
>>> soup.item
\item red lemon
>>> list(soup.find_all('item'))
[\item red lemon, \item life]

免责声明：我写了这个库，但也是出于类似的原因。关于小鲍比故事的帖子（关于def)，TexSoup 不处理定义。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

以编程方式将 LaTeX 代码转换/解析为纯文本的相关文章

Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在

随机推荐

AngularJS：将照片作为多部分表单数据上传并发布并获取响应

我想上传图像并将其发布到我的服务器该服务器应该将图像进一步发布到某些 API 并获取其响应我可能可以将视图与类似的东西一起使用
重新启动后，图库中图像的权限会丢失

我的应用程序允许用户从图库或其他位置查看一些选定的图像我通过以下方式请求图像的 Uri Intent photoPickerIntent new Intent Intent ACTION PICK photoPickerIntent se
Android 上出现“ 已恢复时意外恢复”消息是怎么回事？

我的几个 Android 应用程序在 logcat 输出中显示以下类型的消息 I UsageStats 59 Unexpected resume of com totsp test while already resumed in com
如何将动态数据添加到 QML 表

我正在尝试从 Python 将行添加到表中我正在使用用 QML 描述的 TableView 我不知道如何将模型添加到表中除非模型也在 QML 中但我不知道如何向模型添加值 import sys from PyQt5 QtCore im
Rails 中仅响应 json

在我的只有 json 的 Rails 应用程序中每当有人调用我的 Rails 应用程序并将接受标头设置为除 application json 之外的任何内容时我想发送 406 代码当我将内容类型设置为除 application jso
我可以将评论信息保存在我的 Jar 文件中（由 Ant 生成）吗？

当我使用 Ant 将项目构建为 Jar 文件时我同时生成 javadoc 但是当我在新项目中使用这个 Jar 时我在 Eclipse 中看不到 Jar 的注释按 F2 因此我尝试在新项目属性的 javadoc Location 中添
AngularJS：如何将 JSON 数据加载到作用域变量上

我正在创建一个个人网站我可以在其中不断更新内容而无需操作HTML 我试图通过简单地加载和更新来实现这一点JSON文件但现在我在加载时遇到问题JSON数据到scope多变的 HTML div div
使用C#.net进行语音记录（winmm.dll）

我的要求是构建一个实用程序可以录制语音通过麦克风并将 wav 文件作为桌面和 Web 应用程序保存在磁盘上对于特定用户所以我选择了 activeX 技术因为我没有找到任何其他更好的方法也许你知道并且可以指导我将非常受欢迎我
如何使用 Stream Writer 写入文件开头？

我想将字符串插入到文件的开头但是在流编写器中没有附加到开头的功能那么我应该怎么做呢我的代码是 string path Directory GetCurrentDirectory test txt StreamReader sreade
Go 中将 int 和 long 转换为字符串

我有这样的并发例程 Routine 1 for 30 times Send string Routine 2 out lt chan string for case str lt out fmt Println str 现在我想从例程 1
同时通过管道发送到 grep 并重定向到 stdout

在 Linux bash 中我尝试运行命令并 grep 获取参数 command grep 但是我需要重定向结果commad到标准输出并同时将其传送到 grep 我需要看到grep结果和command结果为标准输出我用谷歌搜索了一下并
NHibernate 还是 Fluent NHibernate？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
部署 WAR 文件时出现问题。无法启动组件[]

我目前在将 WAR 文件部署到 Tomcat7 服务器时遇到问题我是使用 java 进行 Web 开发的新手一切在 Eclipse 中运行良好但是当我生成 WAR 文件并将其部署到服务器时出现以下错误无法启动组件下面是日志转储
在笔记本电脑上测试时使用 MeteorCamera.getPicture() 拍照时出错

我正在努力使用 Meteor 的 mdg camera 插件向我的应用程序添加照片功能目前我没有任何 PhoneGap 设备设置因此我正在我的笔记本电脑上进行测试我想我在某处读到当相机不可用时 Meteor 实现会回退并使用简单的
使用 OpenCV detectorMultiScale 来找到我的脸

我很确定我的总体主题是正确的但我没有找到任何面孔我的代码读取自c cv2 VideoCapture 0 即计算机的摄像机然后我进行以下设置以产生面部所在的位置正如您所看到的我正在循环遍历不同的scaleFactors和minNe
在 C# 中使用 MailMessage 发送电子邮件

我在使用 MailMessage 发送电子邮件时遇到一些问题我有两个电子邮件帐户电子邮件受保护 cdn cgi l email protection and 电子邮件受保护 cdn cgi l email protection 并且我希
计算两个数据集的两点之间的距离（最近邻）

我想计算两个不同数据集中两点之间的距离我不想计算所有点之间的距离只是到 datasetB 最近的点一些例子数据集 A 人员 http pastebin com HbaeqACi http pastebin com HbaeqACi
为什么firefox没有水平滚动条可供选择

为什么 FireFox 中没有水平滚动条用于此类选择
如何从图像（jpg、png等）中提取图层

给定一个图像例如 CakePHP 徽标如何将该图像转换回带有图层的 PSD 作为一个人我可以轻松地弄清楚如何将其转换回带有图层的 PSD 我可以看出背景是带有星形边缘的圆形因此圆形星形部分位于后面蛋糕图像位于其上方并且单词 C
以编程方式将 LaTeX 代码转换/解析为纯文本

我有几个 C Python 代码项目其中使用 LaTeX 格式的描述和标签来生成使用 LaTeX pstricks 制作的 PDF 文档或图表然而我们也有一些纯文本输出例如 HTML 版本的文档我已经有代码来为此编写最小标记和不

以编程方式将 LaTeX 代码转换/解析为纯文本

以编程方式将 LaTeX 代码转换/解析为纯文本 的相关文章

随机推荐

热门标签

以编程方式将 LaTeX 代码转换/解析为纯文本的相关文章