textextraction

从笔记本中提取文本

我正在尝试从图像中提取手写文本我使用 python 和 opencv 函数例如 find contours 当我使用像这样的图像时一切进展顺利它工作得很好因为我有一个简单的背景但后来我用这张图片测试了它由于背景中有笔记本的线条

python opencv OCR textextraction

使用 Beautifulsoup 和正则表达式提取 10-K Edgar 文件中的文本

我想从大约 10000 个文件中自动提取 1A 风险因素部分并将其写入 txt 文件可以找到带有文件的示例 URLhere https www sec gov Archives edgar data 1800 0001047469190

regex URL beautifulsoup textextraction edgar

获取字符串中的最后一个整数

我需要隔离包含多个整数的字符串中最新出现的整数我怎样才能得到23代替1 for lastnum1 text 1 out of 23 lastnum1 this gt getEval eregi replace out of text 你可

php regex string Integer textextraction

Tesseract 是否会忽略扫描文档中的任何非文本区域？

我正在使用 Tesseract 但我不知道它是否忽略任何非文本区域并仅针对文本我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出 Tesseract 有一个非常好的算法来检测文本但它最终会给出误报匹配理想情况下您应该在将图像

imageprocessing OCR Tesseract textextraction

如何使用正则表达式提取子字符串

我有一个字符串其中有两个单引号特点单引号之间是我想要的数据如何编写正则表达式从以下文本中提取我想要的数据 mydata some string with the data i want inside 假设您想要单引号之间的部分请

Java regex string textextraction

将 pdf 图像转换为 jpg 图像的最快方法是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在尝试将多个 pdf 10k 转换为 jpg 图像并从中提取文本我目前正在使用pdf2imagepython 库但它相当慢有没有比这更

python ImageMagick Ghostscript textextraction pdf2image

正则表达式从文本文件中提取文本块？

我需要使用正则表达式从 Python 文本文件中提取标题及其下方的文本块但我发现这很困难我转换了这个PDF https www docdroid net rduS8oC pdfsam doc pdf文本现在看起来像这样到目前为止我

python regex Text textextraction

使用boilerpipe提取非英文文章

我正在尝试使用锅炉管 http code google com p boilerpipe java 库用于从一组网站中提取新闻文章它非常适合英文文本但对于带有特殊字符的文本例如带有重音符号的单词 hist ria 无法正确提取这些特

Java html textextraction

如何在Python中阅读pdf？ [复制]

这个问题在这里已经有答案了如何在Python中阅读pdf 我知道一种将其转换为文本的方法但我想直接从pdf中阅读内容谁能解释一下是哪一个python中的模块最适合pdf提取您可以使用 PyPDF2 包 install PyPDF2

python python27 pdf textextraction

从复杂（混合）句子中提取简单句子的算法？

有没有一种算法可以用来从段落中提取简单的句子我的最终目标是稍后对生成的简单句子运行另一个算法来确定作者的情绪我已经从 Chae Deug Park 等来源对此进行了研究但没有讨论准备简单的句子作为训练数据提前致谢看一眼Apache

NLP extract textmining textextraction informationextraction

HTML 内容提取的最新技术水平如何？

有很多关于 HTML 内容提取的学术工作例如 Gupta Kaiser 2005 从可访问的网页中提取内容 http citeseerx ist psu edu viewdoc summary doi 10 1 1 60 357 以及这里

html htmlcontentextraction textextraction

使用 jquery 从批量文本中提取所有电子邮件地址

我有下面的文字 email protected cdn cgi l email protection assdsdf lt email protected cdn cgi l email protection gt rodnsdfald f

javascript jQuery regex textextraction emailaddress

如何使用 Vim 提取与正则表达式匹配的文本？

我想用 Vim 从一段文本中提取一些数据输入看起来像这样 72 title 168 72 onmouseover posizione 168 72 onmouseout posizione gt gt 72 title 180 72 on

Vim Text extract textextraction

无法安装文本

使用命令pip install textract我无法在 Ubuntu 16 04 Python 2 上安装 texttract 我收到以下错误 Collecting textract Requirement already satisfi

pip NLP sentimentanalysis textextraction pdfreader

将字符串严格格式化为大写字母，然后将数字分成两半[重复]

这个问题在这里已经有答案了我有几个格式的字符串 AA11 AAAAAA1111111 AA1111111 我需要分离字符串的字母和数字部分如果它们都是一系列字母后跟一系列数字没有非字母数字字符那么sscanf http www p

php string split textextraction textparsing

iText：使用 LocationTextExtractionStrategy 从 pdf 文件中提取的文本顺序错误

我正在使用 iText 从特定位置的 pdf 文件中提取一些文本为此我使用 LocationTextExtractionStrategy public static void main String args throws Except

pdf itext textextraction

ColdFusion 从文本文件中提取值

技术细节我想从包含参数名称和值的文本文件中提取值对于以 request config 开头的每一行有空行带注释的行等我不想从中提取任何内容我想提取这些值以粗体显示请求配置我的参数1 一些随机字符串我认为最好的方法可能是

regex coldfusion extract textparsing textextraction

使用 C# 读取图像中的文本（数据）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案有没有办法使用 C 读取图像中的文本数字和字母这可能吗最好的方法是什么 Thanks http code google com

c imageprocessing textextraction

从（Edgar 10-K 文件）HTML 中提取文本部分

我正在尝试从 HTML 文件中提取特定部分具体来说我查找 10 K 文件某公司的美国业务报告的 ITEM 1 部分例如 https www sec gov Archives edgar data 1591890 000149315

python html beautifulsoup textextraction edgar

使用 Python 从 PDF 中提取文本及其字体详细信息（样式、大小、颜色、斜体等）[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我希望使用 Python 从 PDF 中提取文本及其字体详细信息样式大小颜色斜体等我需要提取文本及其元数据以用于翻译目的任何人

python pdf fonts fontsize textextraction