使用 Solr 配置 Tika

2023-12-31

我正在寻找将丰富类型文档（Pdf、Doc、rtf、txt）索引到 Solr 中。我找到了 Tika 作为解决方案。我在网上咆哮，但没有找到任何文档/链接来使其与 ExtractingRequestHandler 一起使用。

任何人都可以提供通过提取 RequestHandler 配置 Tikka 的分步方法。

提前致谢：）

Check 提取RequestHandler http://wiki.apache.org/solr/ExtractingRequestHandler用于 Solr 与 Tika 的集成。
Solr 内置了 tika.config，除非覆盖配置，否则不需要定义它。
您可以使用 solrconfig.xml 中定义的默认配置

<!-- Solr Cell Update Request Handler

   http://wiki.apache.org/solr/ExtractingRequestHandler 

-->
<requestHandler name="/update/extract" 
              startup="lazy"
              class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
  <str name="lowernames">true</str>
  <str name="uprefix">ignored_</str>

  <!-- capture link hrefs but ignore div attributes -->
  <str name="captureAttr">true</str>
  <str name="fmap.a">links</str>
  <str name="fmap.div">ignored_</str>
</lst>
</requestHandler>

您可以使用命令将文件与附加元数据索引到 solr。

curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "[email protected] /cdn-cgi/l/email-protection"

默认情况下，文件的内容将复制到内容字段并复制到文本，您可以覆盖设置。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Solr

apachetika

使用 Solr 配置 Tika 的相关文章

对 SolrConfig.xml 文件的更新未得到反映

我在 SolrConfig xml 文件中添加了一个新的请求处理程序但是每当我尝试使用新的处理程序时我都会收到带有未知处理程序错误的 404 修改SolrConfig xml文件时是否还需要修改其他文件 Thanks 您需要重新启动
python将文件发送到作为服务运行的tika

参考这个问题 https stackoverflow com questions 16251436 unable to run java command from cgi我想将 MS Word doc 文件发送到作为服务运行的 tika 应
SORL 方面字段按降序值排序

我正在使用带有分面过滤器的 SOLR 6 5 1 我的查询有 facet limit 1 gt 生成所有可能的构面值 facet sort index gt 不按出现次数而是按值本身对分面值进行排序例如一个方面将整数作为值特别是字段包
Node.getTextContent() 在 Node 中未定义

在我的项目中我面临一个问题 getTextContent 方法是节点类型未定义我目前使用的是jdk 1 5 谁能告诉我这是什么意思如果您遇到这个问题Eclipse 我测试的解决方案是 Java Build Path Order and
MySQL 和 Solr 中的分面搜索和类别

我希望能够创建一个类似于 ebay 或 newegg 的搜索页面您可以在其中选择类别和根据类别的不同方面有人能给我指出正确的方向吗我如何使用 Solr 中的产品存储和搜索此类方面和类别以及我将使用 MySQL 查看哪种类型的数据库模
如何使用 Solr Provider 控制 Sitecore ContentSearch 中嵌套查询的优先级？

版本详情我正在使用 Sitecore 7 5 build 141003 使用 Solr v4 7 作为搜索引擎索引服务器我还使用标准 Sitecore Solr 提供程序没有自定义索引器目标目标我使用 Sitecore Cont
solr 查询中的加号未正确处理

All 我是 Solr 的新手当我使用 solr 示例导入一些随机文档时我在 q 中使用搜索查询如下所示 fund report fund和之间没有空格我以为会在文档中搜索 fund report 这个词这种情况在文档中很少发生
使用 Tika jars 检查 Mimetype

我正在开发标准的单独 Java 批处理过程我正在尝试使用 Tika Jars 确定文件附件 mimetype 我正在使用 Tika 1 4 Jar 文件我的代码看起来像 Parser parser new AutoDetectParse
Solr 索引与存储

我对太阳能场的索引和存储属性的行为有点困惑例如如果我在 Schema xml 中有以下内容
LUCENE：搜索与正则表达式匹配的术语

我需要搜索 lucene 索引中的任何术语匹配特定的正则表达式我知道我可以使用TermsComponent在solr中如果配置如下
另一个日期时间问题

我目前有一个这种格式的日期 2010 03 03 10 39 18 这是一个TIMESTAMPMySQL 中的字段我需要为名为 Solr 的搜索引擎提供以下格式的日期 1995 12 31T23 59 59Z 以下是他们网站上有关日期的一
如何使用 pysolr 对 solr 进行原子更新？

我找不到关于如何使用 pysolr 更新 solr 的合适文档截至 2014 年 11 月原子更新 https github com toastdriven pysolr commit c49be48d459448532b5ad0f505
DataImportHandler 未在 solr admin 中索引 mysql 表

我正在尝试使用 DataImportHandler 在 solr 中索引 mysql 表但它似乎没有索引数据配置 xml
Solr 4.0 中的 BaseTokenFilterFactory 去哪儿了？

用于创建您自己的标记和字符过滤器的 Solr 文档说明如下 http wiki apache org solr AnalyzersTokenizersTokenFilters Specifying an Analyzer in the sc
复杂的 SOLR 查询，包括 NOT 和 OR

我对 SOLR 搜索有一些相当复杂的要求我需要针对标记内容的数据库执行这些搜索我需要首先过滤数据库以获取与我的过滤器标签匹配的结果任何具有黑名单中的标签的结果都应被删除除非它们也包含白名单中的标签假设我想检索所有标记为森林或
使用 apach tika 解析器从 XML 文件中的 xml 标签中提取文本

我正在尝试从各种文档中提取所有文本为此我使用 Apache Tika 1 4 RecursiveTikaParser parser new RecursiveTikaParser new AutoDetectParser ParseCo
在 solr 8 中的 fl 中使用父过滤器时获取“当架构嵌套时不应发送父过滤器”

我正在尝试使用子文档获取父文档但得到当模式嵌套时不应发送父过滤器 error 附上下面我尝试过但无法得到解决方案的查询 q parent which content type person fl child parentFilter c
solr + haystack + django 我在哪里放置 schema.xml？

我刚刚安装Solr and Haystack for a Django我正在做的项目下列的this http docs haystacksearch org dev tutorial html Haystack教程我创建了一个 sche
如何根据特定字段对 solr 查询的前 100 个结果进行排序？

我想使用特定字段对 solr 的前 100 个文档进行排序但它对整个结果集进行排序然后显示结果以下是我的代码 query1 setQuery Natural Language query1 setStart 0 query1 setR
在 Solr 中实现术语关联挖掘的最简单方法是什么？

关联挖矿似乎为检索提供了良好的结果相关术语在文本语料库中有很多关于这个主题的著作其中包括著名的LSA http en wikipedia org wiki Latent semantic analysis方法挖掘关联最直接的方法是构建

随机推荐

如何解析包含 javascript 代码的 html

如何解析大量使用 javascript 的 html 文档我知道python中有一些库可以解析静态xml html文件我基本上正在寻找一个程序或库甚至是firefox插件来读取html javascript 执行javascript
添加文本框值并使用 javascript 显示它

我正在尝试使用 javascript 添加几个文本框的输入值并在下面显示总数如何添加并保留计算后显示的总和我不是 JavaScript 专家下面是一个向您展示如何执行此操作的示例
Angular js 对本地化的支持 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我尝试在 AngularJS 中查找支持多种语言的文档但没有成功支持本地化吗看看角度翻译 htt
如何在python中使用scrapy获取直接父节点？

我是新来的scrapy 我想从网络上抓取一些数据我得到了如下所示的html文档 dom style1 div class user info p class user name something in p tag p text data
实体框架：多对多关系中的重复记录

我有以下实体框架代码第一代码创建表并插入数据但是 Club 表中有重复的记录我的操作是使用俱乐部创建应用程序创建俱乐部使用人员应用程序创建人员如何避免重复录入 static void Main string args Datab
Linq Select 语句 - 不在的地方

我正在尝试编写相当于以下内容的 LINQ 语句 select e EmployeeID EmployeeName e FirstName e LastName from Employees e where e EmployeeID not
对 `search_as_you_type` ngram 子字段感到困惑

我正在尝试将键入时搜索功能添加到 Elasticsearch 中名为email address 我的理解从文档 https www elastic co guide en elasticsearch reference 7 7 sear
从本地到 Heroku 服务器的 SCP 文件

我想将 config yml 文件从本地 django 应用程序目录复制到我的 heroku 服务器但我不知道如何获取电子邮件受保护 cdn cgi l email protectionHeroku 的格式我尝试过运行 heroku
Android Room 按别名排序

我想根据我创建的自定义别名来订购数据集我尝试过但它会导致语法错误我究竟做错了什么 Code Query SELECT a b as ratio FROM dataset where my status myStatus order b
WKWebview注入cookie头导致重定向循环

我试图将我单独获取的会话cookie注入到WKWebview请求中结果证明这是相当痛苦的我设法使用注入会话cookie这个解决方案 https stackoverflow com questions 26573137 can i set
PCM -> AAC（编码器） -> PCM（解码器）实时且正确优化

我正在尝试实施 AudioRecord MIC gt PCM gt AAC Encoder AAC gt PCM Decode gt AudioTrack SPEAKER with MediaCodec在 Android 4 1 API16
如何在MySQL中进行批量插入

我有 1 多条记录需要输入到表中在查询中执行此操作的最佳方法是什么我应该创建一个循环并每次迭代插入一条记录吗或者还有更好的方法来自MySQL手册 http dev mysql com doc refman 5 7 en inser
Azure 管理 REST API - “身份验证失败。‘授权’标头以无效格式提供。”

我拼命尝试将 2 个经典存储帐户从旧的 MSDN 订阅移动到 MPN 订阅但我一直遇到困难因为仅通过 REST API 支持这些帐户的移动我已按照此处的说明启用了 API https azure microsoft com en us
Eclipse 是否有排列类文件的功能？

Eclipse 有很多功能我想知道这个功能是否存在或者是否存在任何捷径我想将我的类数据排列到该流程中的变量构造函数方法中从上到下进一步细化我想按访问级别 pub private protected 和类型 void 或返回的方
使用 GSON 获取 JSON 键名

我有一个 JSON 数组其中包含如下对象 bjones fname Betty lname Jones password ababab level manager 我的 User 类有一个用户名需要使用 JSON 对象的密钥我如何获取
添加不属于模型一部分的自定义表单字段 (Django)

我在管理网站上注册了一个模型它的字段之一是长字符串表达式我想将自定义表单字段添加到管理员中此模型的添加更新页面根据这些字段的值我将构建长字符串表达式并将其保存在相关的模型字段中我怎样才能做到这一点我正在从符号构建数学或字符串表
在elasticbeanstalk中设置NODE_ENV变量

我创建了一个名为 elasticbeanstalk environment config其中包含以下内容 option settings option name NODE ENV value development 我还将 process
具有多个可选参数的 Spring Data MongoDB AND/OR 查询

我正在尝试执行具有两个以上可选参数的查询但没有得到任何结果对于2个参数我遵循了这个问题的答案spring data mongo 可选查询参数 https stackoverflow com questions 11613464 spri
带有断路器的 Kafka Consumer，使用 Resilience4j 重试模式

我需要一些帮助来了解如何使用 Spring boot Kafka Resilence4J 提出解决方案以实现来自 Kafka Consumer 的微服务调用假设如果微服务关闭那么我需要使用断路器模式通知我的 Kafka 消费者停止获取
使用 Solr 配置 Tika

我正在寻找将丰富类型文档 Pdf Doc rtf txt 索引到 Solr 中我找到了 Tika 作为解决方案我在网上咆哮但没有找到任何文档链接来使其与 ExtractingRequestHandler 一起使用任何人都可以提供通

使用 Solr 配置 Tika

使用 Solr 配置 Tika 的相关文章

随机推荐

热门标签