Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Tesseract 是否会忽略扫描文档中的任何非文本区域?
我正在使用 Tesseract 但我不知道它是否忽略任何非文本区域并仅针对文本 我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出 Tesseract 有一个非常好的算法来检测文本 但它最终会给出误报匹配 理想情况下 您应该在将图像
imageprocessing
OCR
Tesseract
textextraction
如何使用正则表达式提取子字符串
我有一个字符串 其中有两个单引号 特点 单引号之间是我想要的数据 如何编写正则表达式从以下文本中提取 我想要的数据 mydata some string with the data i want inside 假设您想要单引号之间的部分 请
Java
regex
string
textextraction
将 pdf 图像转换为 jpg 图像的最快方法是什么? [关闭]
Closed 这个问题是基于意见的 help closed questions 目前不接受答案 我正在尝试将多个 pdf 10k 转换为 jpg 图像并从中提取文本 我目前正在使用pdf2imagepython 库 但它相当慢 有没有比这更
python
ImageMagick
Ghostscript
textextraction
pdf2image
正则表达式从文本文件中提取文本块?
我需要使用正则表达式从 Python 文本文件中提取标题及其下方的文本块 但我发现这很困难 我转换了这个PDF https www docdroid net rduS8oC pdfsam doc pdf文本 现在看起来像这样 到目前为止 我
python
regex
Text
textextraction
使用boilerpipe提取非英文文章
我正在尝试使用锅炉管 http code google com p boilerpipe java 库 用于从一组网站中提取新闻文章 它非常适合英文文本 但对于带有特殊字符的文本 例如带有重音符号的单词 hist ria 无法正确提取这些特
Java
html
textextraction
如何在Python中阅读pdf? [复制]
这个问题在这里已经有答案了 如何在Python中阅读pdf 我知道一种将其转换为文本的方法 但我想直接从pdf中阅读内容 谁能解释一下是哪一个python中的模块最适合pdf提取 您可以使用 PyPDF2 包 install PyPDF2
python
python27
pdf
textextraction
从复杂(混合)句子中提取简单句子的算法?
有没有一种算法可以用来从段落中提取简单的句子 我的最终目标是稍后对生成的简单句子运行另一个算法来确定作者的情绪 我已经从 Chae Deug Park 等来源对此进行了研究 但没有讨论准备简单的句子作为训练数据 提前致谢 看一眼Apache
NLP
extract
textmining
textextraction
informationextraction
HTML 内容提取的最新技术水平如何?
有很多关于 HTML 内容提取的学术工作 例如 Gupta Kaiser 2005 从可访问的网页中提取内容 http citeseerx ist psu edu viewdoc summary doi 10 1 1 60 357 以及这里
html
htmlcontentextraction
textextraction
使用 jquery 从批量文本中提取所有电子邮件地址
我有下面的文字 email protected cdn cgi l email protection assdsdf lt email protected cdn cgi l email protection gt rodnsdfald f
javascript
jQuery
regex
textextraction
emailaddress
如何使用 Vim 提取与正则表达式匹配的文本?
我想用 Vim 从一段文本中提取一些数据 输入看起来像这样 72 title 168 72 onmouseover posizione 168 72 onmouseout posizione gt gt 72 title 180 72 on
Vim
Text
extract
textextraction
无法安装文本
使用命令pip install textract我无法在 Ubuntu 16 04 Python 2 上安装 texttract 我收到以下错误 Collecting textract Requirement already satisfi
pip
NLP
sentimentanalysis
textextraction
pdfreader
将字符串严格格式化为大写字母,然后将数字分成两半[重复]
这个问题在这里已经有答案了 我有几个格式的字符串 AA11 AAAAAA1111111 AA1111111 我需要分离字符串的字母和数字部分 如果它们都是一系列字母 后跟一系列数字 没有非字母数字字符 那么sscanf http www p
php
string
split
textextraction
textparsing
iText:使用 LocationTextExtractionStrategy 从 pdf 文件中提取的文本顺序错误
我正在使用 iText 从特定位置的 pdf 文件中提取一些文本 为此 我使用 LocationTextExtractionStrategy public static void main String args throws Except
pdf
itext
textextraction
ColdFusion 从文本文件中提取值
技术细节 我想从包含参数名称和值的文本文件中提取值 对于以 request config 开头的每一行 有空行 带注释的行等 我不想从中提取任何内容 我想提取这些值 以粗体显示 请求 配置 我的参数1 一些随机字符串 我认为最好的方法可能是
regex
coldfusion
extract
textparsing
textextraction
使用 C# 读取图像中的文本(数据)[关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 有没有办法使用 C 读取图像中的文本 数字和字母 这可能吗 最好的方法是什么 Thanks http code google com
c
imageprocessing
textextraction
从(Edgar 10-K 文件)HTML 中提取文本部分
我正在尝试从 HTML 文件中提取特定部分 具体来说 我查找 10 K 文件 某公司的美国业务报告 的 ITEM 1 部分 例如 https www sec gov Archives edgar data 1591890 000149315
python
html
beautifulsoup
textextraction
edgar
使用 Python 从 PDF 中提取文本及其字体详细信息(样式、大小、颜色、斜体等)[关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我希望使用 Python 从 PDF 中提取文本及其字体详细信息 样式 大小 颜色 斜体等 我需要提取文本及其元数据以用于翻译目的 任何人
python
pdf
fonts
fontsize
textextraction
PDF 文本提取问题 - 字体/大写不一致
我正在尝试从 pdf 书中提取文本 并继续遇到一个问题 即复制的文本部分在粘贴到文本文档中时无法保留正确的大写属性 我有权复制这本书 也有使用所有必要字体的许可 起初我认为问题是由未嵌入字体引起的 但我检查后发现所有字体似乎都是嵌入的子集
pdf
characterencoding
adobeindesign
textextraction
truetype
如何使用PoS标签作为朴素贝叶斯分类器训练数据的特征?
我正在研究如何从文档中提取关键短语为了我的论文 在我的研究中 我使用朴素贝叶斯分类器机器学习来创建候选术语特征的训练模型 特点之一是PoS tag 我认为此功能对于指定术语是否为关键短语很重要 但输入的朴素贝叶斯 NB 分类器是数字 PoS
textextraction
postagger
informationextraction
naivebayes
从 PHP 中的分隔字符串中提取浮点数
我想将一串分隔的维度值转换为浮点数 例如 152 15 x 12 34 x 11mm into 152 15 12 34 and 11 并存储在一个数组中 这样 dim 0 152 15 dim 1 12 34 dim 2 11 我还需要处
php
regex
floatingpoint
textparsing
textextraction
1
2
3
»