Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
从笔记本中提取文本
我正在尝试从图像中提取手写文本 我使用 python 和 opencv 函数 例如 find contours 当我使用像这样的图像时 一切进展顺利 它工作得很好 因为我有一个简单的背景 但后来我用这张图片测试了它 由于背景中有笔记本的线条
python
opencv
OCR
textextraction
使用 Beautifulsoup 和正则表达式提取 10-K Edgar 文件中的文本
我想从大约 10000 个文件中自动提取 1A 风险因素 部分并将其写入 txt 文件 可以找到带有文件的示例 URLhere https www sec gov Archives edgar data 1800 0001047469190
regex
URL
beautifulsoup
textextraction
edgar
获取字符串中的最后一个整数
我需要隔离包含多个整数的字符串中最新出现的整数 我怎样才能得到23代替1 for lastnum1 text 1 out of 23 lastnum1 this gt getEval eregi replace out of text 你可
php
regex
string
Integer
textextraction
Tesseract 是否会忽略扫描文档中的任何非文本区域?
我正在使用 Tesseract 但我不知道它是否忽略任何非文本区域并仅针对文本 我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出 Tesseract 有一个非常好的算法来检测文本 但它最终会给出误报匹配 理想情况下 您应该在将图像
imageprocessing
OCR
Tesseract
textextraction
如何使用正则表达式提取子字符串
我有一个字符串 其中有两个单引号 特点 单引号之间是我想要的数据 如何编写正则表达式从以下文本中提取 我想要的数据 mydata some string with the data i want inside 假设您想要单引号之间的部分 请
Java
regex
string
textextraction
将 pdf 图像转换为 jpg 图像的最快方法是什么? [关闭]
Closed 这个问题是基于意见的 help closed questions 目前不接受答案 我正在尝试将多个 pdf 10k 转换为 jpg 图像并从中提取文本 我目前正在使用pdf2imagepython 库 但它相当慢 有没有比这更
python
ImageMagick
Ghostscript
textextraction
pdf2image
正则表达式从文本文件中提取文本块?
我需要使用正则表达式从 Python 文本文件中提取标题及其下方的文本块 但我发现这很困难 我转换了这个PDF https www docdroid net rduS8oC pdfsam doc pdf文本 现在看起来像这样 到目前为止 我
python
regex
Text
textextraction
使用boilerpipe提取非英文文章
我正在尝试使用锅炉管 http code google com p boilerpipe java 库 用于从一组网站中提取新闻文章 它非常适合英文文本 但对于带有特殊字符的文本 例如带有重音符号的单词 hist ria 无法正确提取这些特
Java
html
textextraction
如何在Python中阅读pdf? [复制]
这个问题在这里已经有答案了 如何在Python中阅读pdf 我知道一种将其转换为文本的方法 但我想直接从pdf中阅读内容 谁能解释一下是哪一个python中的模块最适合pdf提取 您可以使用 PyPDF2 包 install PyPDF2
python
python27
pdf
textextraction
从复杂(混合)句子中提取简单句子的算法?
有没有一种算法可以用来从段落中提取简单的句子 我的最终目标是稍后对生成的简单句子运行另一个算法来确定作者的情绪 我已经从 Chae Deug Park 等来源对此进行了研究 但没有讨论准备简单的句子作为训练数据 提前致谢 看一眼Apache
NLP
extract
textmining
textextraction
informationextraction
HTML 内容提取的最新技术水平如何?
有很多关于 HTML 内容提取的学术工作 例如 Gupta Kaiser 2005 从可访问的网页中提取内容 http citeseerx ist psu edu viewdoc summary doi 10 1 1 60 357 以及这里
html
htmlcontentextraction
textextraction
使用 jquery 从批量文本中提取所有电子邮件地址
我有下面的文字 email protected cdn cgi l email protection assdsdf lt email protected cdn cgi l email protection gt rodnsdfald f
javascript
jQuery
regex
textextraction
emailaddress
如何使用 Vim 提取与正则表达式匹配的文本?
我想用 Vim 从一段文本中提取一些数据 输入看起来像这样 72 title 168 72 onmouseover posizione 168 72 onmouseout posizione gt gt 72 title 180 72 on
Vim
Text
extract
textextraction
无法安装文本
使用命令pip install textract我无法在 Ubuntu 16 04 Python 2 上安装 texttract 我收到以下错误 Collecting textract Requirement already satisfi
pip
NLP
sentimentanalysis
textextraction
pdfreader
将字符串严格格式化为大写字母,然后将数字分成两半[重复]
这个问题在这里已经有答案了 我有几个格式的字符串 AA11 AAAAAA1111111 AA1111111 我需要分离字符串的字母和数字部分 如果它们都是一系列字母 后跟一系列数字 没有非字母数字字符 那么sscanf http www p
php
string
split
textextraction
textparsing
iText:使用 LocationTextExtractionStrategy 从 pdf 文件中提取的文本顺序错误
我正在使用 iText 从特定位置的 pdf 文件中提取一些文本 为此 我使用 LocationTextExtractionStrategy public static void main String args throws Except
pdf
itext
textextraction
ColdFusion 从文本文件中提取值
技术细节 我想从包含参数名称和值的文本文件中提取值 对于以 request config 开头的每一行 有空行 带注释的行等 我不想从中提取任何内容 我想提取这些值 以粗体显示 请求 配置 我的参数1 一些随机字符串 我认为最好的方法可能是
regex
coldfusion
extract
textparsing
textextraction
使用 C# 读取图像中的文本(数据)[关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 有没有办法使用 C 读取图像中的文本 数字和字母 这可能吗 最好的方法是什么 Thanks http code google com
c
imageprocessing
textextraction
从(Edgar 10-K 文件)HTML 中提取文本部分
我正在尝试从 HTML 文件中提取特定部分 具体来说 我查找 10 K 文件 某公司的美国业务报告 的 ITEM 1 部分 例如 https www sec gov Archives edgar data 1591890 000149315
python
html
beautifulsoup
textextraction
edgar
使用 Python 从 PDF 中提取文本及其字体详细信息(样式、大小、颜色、斜体等)[关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我希望使用 Python 从 PDF 中提取文本及其字体详细信息 样式 大小 颜色 斜体等 我需要提取文本及其元数据以用于翻译目的 任何人
python
pdf
fonts
fontsize
textextraction
1
2
3
»