Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 Tika jars 检查 Mimetype
我正在开发标准的单独 Java 批处理过程 我正在尝试使用 Tika Jars 确定文件附件 mimetype 我正在使用 Tika 1 4 Jar 文件 我的代码看起来像 Parser parser new AutoDetectParse
Java
apachepoi
apachetika
python将文件发送到作为服务运行的tika
参考这个问题 https stackoverflow com questions 16251436 unable to run java command from cgi我想将 MS Word doc 文件发送到作为服务运行的 tika 应
python
WebServices
apachetika
使用 apache tika 获取 doc 文件中的嵌入资源
我有包含文本和图像的 MS Word 文档 我想解析它们以获得 xml 结构 经过研究 我最终使用 apache tika 来转换我的文档 我可以将我的文档解析为 xml 这是我的代码 AutoDetectParser parser new
Java
apachetika
使用 Apache tika 删除 PDFont 缓存
我试图仅从许多不同的代码 rtf doc pdf 中提取文本 我很自然地转向 Apache Tika 因为它可以自动检测文档并相应地提取文本 我只对文本感兴趣 对格式等不感兴趣 我的应用程序最终出现了严重的内存泄漏 经过调查 这是来自 PD
PDFBox
apachetika
从 Rails 应用程序(Word、PDF、Excel 等)搜索附件
我在 Stack Overflow 上发表的第一篇文章 请温柔一点 我即将为客户启动一个新的 Ruby on Rails 3 1 项目 他们的要求之一是有一个搜索引擎 该引擎将索引大约 2 000 个文档 这些文档是 PDF Word Ex
rubyonrails
Search
attachment
apachetika
java.lang.IllegalArgumentException:协议= http主机= null
对于这个链接这段代码不起作用 但如果我添加另一个例如 https www google com https www google com一切都好 URL url new URL http bits blogs nytimes com 201
Java
URL
apachetika
正确停止 Tika 服务器
为了启动可以从 localhost 以外的主机访问的 Tika 服务器 我们知道要走的路是 假设我有版本 1 7 并且想要在端口 9998 上运行 java jar tika server 1 7 SNAPSHOT jar host 0 0
Java
apachetika
在 Linux 上将 MSword 转换为 XML/HTML
我需要将 MSWord 文件转换为 XML 或 HTML 同时保留文件的结构 主要是表格 我偶然发现了tika 它在从MSword文件 和任何文件 中提取文本方面非常强大 如下 curl www vit org downloads doc
Java
python
Linux
perl
apachetika
向 Apache Tika 添加语言配置文件
请任何成功做到这一点的人解释一下如何做到这一点 我是否需要获取我需要添加的语言的 n gram 文件 是创造的问题吗tika language override properties 添加一些其他 lang 代码并在 classPath 上
Java
apachetika
languagedetection
使用 pdfbox 解析文件内容时使用后备字体 - 会导致错误吗?
我正在使用 Apache Tika 1 14 它使用 pdfbox 2 0 3 我用它来提取文件的文本内容 在生产模式下 当处理许多文件时 我会记录许多如下语句 WARN o a p pdmodel font PDTrueTypeFont
PDFBox
apachetika
Spark 2.x + Tika:java.lang.NoSuchMethodError:org.apache.commons.compress.archivers.ArchiveStreamFactory.detect
我正在尝试解决 Apache Tika gt v 1 14 解析作业的 Spark submit 类路径运行时问题 问题似乎涉及 Spark Submit 类路径与我的 uber jar 平台 CDH 5 15 Spark 2 3 通过 C
apachespark
apachetika
clouderacdh
Apache Tika 无法正确检测 MIME 类型
我试图在使用inn上传文件时检测文件类型Apache Tika如下所示 static final List
Java
mimetypes
apachetika
fileextension
使用 Solr 配置 Tika
我正在寻找将丰富类型文档 Pdf Doc rtf txt 索引到 Solr 中 我找到了 Tika 作为解决方案 我在网上咆哮 但没有找到任何文档 链接来使其与 ExtractingRequestHandler 一起使用 任何人都可以提供通
Solr
apachetika
Solr ExtractingRequestHandler 提取链接中的“rect”
我正在利用 solr ExtractingRequestHandler 来提取和索引 HTML 内容 我的问题涉及它生成的提取链接部分 返回的提取内容已在 HTML 源中不存在的位置插入 矩形 我的 solrconfig 单元配置如下
Solr
apachetika
solrcell
如何检测文档中的图像
如何检测 doc xls ppt 或 pdf 等文档中的图像 我遇到了 Apache Tika 我正在尝试它的命令行选项 http tika apache org 1 2 gettingstarted html http tika apac
apache
apachetika
使用 Apache Solr 索引 pdf 文件内容
我正在使用 Solrphp 扩展用于与 Apache Solr 交互 我正在从数据库中索引数据 我还想索引外部文件 如 PDF PPTX 的内容 索引的逻辑是 假设schema xml定义了以下字段
php
Solr
apachetika
无法使用 TesseractOCRConfig Apache Tika 提取扫描的 pdf
我的 pdf 包含扫描图像 我想从中提取文本 我尝试过的 我尝试使用 AutoDetectParser 但没有输出 我按照中提供的解决方案进行操作Apache Tika 提取扫描的 PDF 文件还有 Apache Tika Jira 位于h
Java
Parsing
pdf
OCR
apachetika
如何从 HTML 文件中提取元标签并在 SOLR 和 TIKA 中对其进行索引
我正在尝试提取 HTML 文件的元标签 并通过 tika 集成将它们索引到 solr 中 我无法使用 Tika 提取这些元标记 也无法在 solr 中显示 我的 HTML 文件看起来像这样
Solr
apachetika
dataimport
solr4
无法使用solr4配置Tika1.2
我正在尝试使用 TikaEntityProcessor 来索引 html 文件内容 不知怎的 我无法正确地得到它 我检查了错误日志并收到以下错误 SEVERE Full Import failed java lang RuntimeExce
Solr
apachetika
dataimporthandler
solr4
Tika Parser:排除 PDF 附件
有一个 PDF 文档 其中包含 Tika 不应提取的附件 此处为 joboptions 内容不应发送到 Solr 有没有办法在 Tika 配置中排除某些 或全部 PDF 附件 gagravarr 我们通过以下方式改变了这种行为蒂卡 2096
pdf
Solr
apachetika
1
2
»