apachetika

使用 Tika jars 检查 Mimetype

我正在开发标准的单独 Java 批处理过程我正在尝试使用 Tika Jars 确定文件附件 mimetype 我正在使用 Tika 1 4 Jar 文件我的代码看起来像 Parser parser new AutoDetectParse

Java apachepoi apachetika

python将文件发送到作为服务运行的tika

参考这个问题 https stackoverflow com questions 16251436 unable to run java command from cgi我想将 MS Word doc 文件发送到作为服务运行的 tika 应

python WebServices apachetika

使用 apache tika 获取 doc 文件中的嵌入资源

我有包含文本和图像的 MS Word 文档我想解析它们以获得 xml 结构经过研究我最终使用 apache tika 来转换我的文档我可以将我的文档解析为 xml 这是我的代码 AutoDetectParser parser new

Java apachetika

使用 Apache tika 删除 PDFont 缓存

我试图仅从许多不同的代码 rtf doc pdf 中提取文本我很自然地转向 Apache Tika 因为它可以自动检测文档并相应地提取文本我只对文本感兴趣对格式等不感兴趣我的应用程序最终出现了严重的内存泄漏经过调查这是来自 PD

PDFBox apachetika

从 Rails 应用程序（Word、PDF、Excel 等）搜索附件

我在 Stack Overflow 上发表的第一篇文章请温柔一点我即将为客户启动一个新的 Ruby on Rails 3 1 项目他们的要求之一是有一个搜索引擎该引擎将索引大约 2 000 个文档这些文档是 PDF Word Ex

rubyonrails Search attachment apachetika

java.lang.IllegalArgumentException：协议= http主机= null

对于这个链接这段代码不起作用但如果我添加另一个例如 https www google com https www google com一切都好 URL url new URL http bits blogs nytimes com 201

Java URL apachetika

正确停止 Tika 服务器

为了启动可以从 localhost 以外的主机访问的 Tika 服务器我们知道要走的路是假设我有版本 1 7 并且想要在端口 9998 上运行 java jar tika server 1 7 SNAPSHOT jar host 0 0

Java apachetika

在 Linux 上将 MSword 转换为 XML/HTML

我需要将 MSWord 文件转换为 XML 或 HTML 同时保留文件的结构主要是表格我偶然发现了tika 它在从MSword文件和任何文件中提取文本方面非常强大如下 curl www vit org downloads doc

Java python Linux perl apachetika

向 Apache Tika 添加语言配置文件

请任何成功做到这一点的人解释一下如何做到这一点我是否需要获取我需要添加的语言的 n gram 文件是创造的问题吗tika language override properties 添加一些其他 lang 代码并在 classPath 上

Java apachetika languagedetection

使用 pdfbox 解析文件内容时使用后备字体 - 会导致错误吗？

我正在使用 Apache Tika 1 14 它使用 pdfbox 2 0 3 我用它来提取文件的文本内容在生产模式下当处理许多文件时我会记录许多如下语句 WARN o a p pdmodel font PDTrueTypeFont

PDFBox apachetika

Spark 2.x + Tika：java.lang.NoSuchMethodError：org.apache.commons.compress.archivers.ArchiveStreamFactory.detect

我正在尝试解决 Apache Tika gt v 1 14 解析作业的 Spark submit 类路径运行时问题问题似乎涉及 Spark Submit 类路径与我的 uber jar 平台 CDH 5 15 Spark 2 3 通过 C

apachespark apachetika clouderacdh

Apache Tika 无法正确检测 MIME 类型

我试图在使用inn上传文件时检测文件类型Apache Tika如下所示 static final List

Java mimetypes apachetika fileextension

使用 Solr 配置 Tika

我正在寻找将丰富类型文档 Pdf Doc rtf txt 索引到 Solr 中我找到了 Tika 作为解决方案我在网上咆哮但没有找到任何文档链接来使其与 ExtractingRequestHandler 一起使用任何人都可以提供通

Solr apachetika

Solr ExtractingRequestHandler 提取链接中的“rect”

我正在利用 solr ExtractingRequestHandler 来提取和索引 HTML 内容我的问题涉及它生成的提取链接部分返回的提取内容已在 HTML 源中不存在的位置插入矩形我的 solrconfig 单元配置如下

Solr apachetika solrcell

如何检测文档中的图像

如何检测 doc xls ppt 或 pdf 等文档中的图像我遇到了 Apache Tika 我正在尝试它的命令行选项 http tika apache org 1 2 gettingstarted html http tika apac

apache apachetika

使用 Apache Solr 索引 pdf 文件内容

我正在使用 Solrphp 扩展用于与 Apache Solr 交互我正在从数据库中索引数据我还想索引外部文件如 PDF PPTX 的内容索引的逻辑是假设schema xml定义了以下字段

php Solr apachetika

无法使用 TesseractOCRConfig Apache Tika 提取扫描的 pdf

我的 pdf 包含扫描图像我想从中提取文本我尝试过的我尝试使用 AutoDetectParser 但没有输出我按照中提供的解决方案进行操作Apache Tika 提取扫描的 PDF 文件还有 Apache Tika Jira 位于h

Java Parsing pdf OCR apachetika

如何从 HTML 文件中提取元标签并在 SOLR 和 TIKA 中对其进行索引

我正在尝试提取 HTML 文件的元标签并通过 tika 集成将它们索引到 solr 中我无法使用 Tika 提取这些元标记也无法在 solr 中显示我的 HTML 文件看起来像这样

Solr apachetika dataimport solr4

无法使用solr4配置Tika1.2

我正在尝试使用 TikaEntityProcessor 来索引 html 文件内容不知怎的我无法正确地得到它我检查了错误日志并收到以下错误 SEVERE Full Import failed java lang RuntimeExce

Solr apachetika dataimporthandler solr4

Tika Parser：排除 PDF 附件

有一个 PDF 文档其中包含 Tika 不应提取的附件此处为 joboptions 内容不应发送到 Solr 有没有办法在 Tika 配置中排除某些或全部 PDF 附件 gagravarr 我们通过以下方式改变了这种行为蒂卡 2096

pdf Solr apachetika