搜索存储在 Hadoop 中的文档 - 使用哪个工具？

2023-11-20

我迷失在：Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI...

当您阅读有关该工具的信息时，您通常可以确定其他每一种工具都会被提及。

我并不指望你向我解释每一个工具——当然不是。如果你能帮助我针对我的特定场景缩小这个范围，那就太好了。到目前为止，我不确定以上哪一个适合，而且看起来（一如既往）有不止一种方法可以完成要做的事情。

该场景是：Hadoop 中存储了 500GB - ~20 TB 的文档。多种格式的文本文档：电子邮件、doc、pdf、odt。有关存储在 SQL 数据库中的文档的元数据（发件人、收件人、日期、部门等）。文档的主要来源将是 ExchangeServer（电子邮件和附件），但不仅如此。现在进行搜索：用户需要能够对这些文档进行复杂的全文搜索。基本上，他会看到一些搜索配置面板（java 桌面应用程序，而不是 web 应用程序） - 他将设置日期范围、文档类型、发件人/收件人、关键字等 - 启动搜索并获取文档的结果列表（以及对于每个文档的信息，为什么它包含在搜索结果中，即在文档中找到了哪些关键字）。

我应该考虑哪些工具，哪些不应该考虑？重点是仅使用最少的所需“粘合”代码来开发这样的解决方案。我精通 SQLdb，但对 Apache 及相关技术感到非常不舒服。

基本工作流程如下所示：ExchangeServer/其他源 -> 从 doc/pdf/... 转换 -> 重复数据删除 -> Hadopp + SQL（元数据） -> 构建/更新索引显示搜索结果

谢谢你！

使用 solr 是一个不错的选择。我已经将它用于您上面描述的类似场景。您可以使用 solr 作为分布式索引服务器来处理真正的海量数据。

但要获取有关所有这些文档格式的元数据，您应该使用其他工具。基本上你的工作流程将是这样的。

1）使用hadoop集群存储数据。

2）使用mapreduce提取hadoop集群中的数据

3）进行文件识别（识别文件类型）

4) 从这些文档中提取元数据。

5）在solr服务器中索引元数据，将其他摄取信息存储在数据库中

6) Solr 服务器是分布式索引服务器，因此对于每次摄取，您可以创建一个新的分片或索引。

7) 当需要搜索时，对所有索引进行搜索。

8）Solr支持所有复杂的搜索，因此您不必制作自己的搜索引擎。

9) 它还为您进行寻呼。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

搜索存储在 Hadoop 中的文档 - 使用哪个工具？的相关文章

Solr MoreLikeThis 不适用于多个分片？

我在 SolrCloud 中有 5 个节点集群每个节点有 2 个分片 Solr版本 6 3 0 现在当我运行 mlt 查询时它仅返回每个节点的结果并且不会将它们分布在所有分片节点上即没有给出任何结果给出结果我什至尝试将其指
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Lucene 评分：在什么情况下使用 queryNorm？

我对 lucene 的评分策略有点困惑我知道Lucene的评分公式是这样的 score q d coord q d x queryNorm q X SUM
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
SLF4J 日志记录到文件 vs. DB vs. Solr

我需要一些关于 SLF4J 日志记录的建议目前我们正在为 Java Web 应用程序使用 SLF4J 日志记录 log4j 绑定该应用程序使用简单的 ConsoleAppender 我们的下一步是研究可以保存日志的地方我们的应用程序
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
在 solr 8 中的 fl 中使用父过滤器时获取“当架构嵌套时不应发送父过滤器”

我正在尝试使用子文档获取父文档但得到当模式嵌套时不应发送父过滤器 error 附上下面我尝试过但无法得到解决方案的查询 q parent which content type person fl child parentFilter c
Solr PatternReplaceCharFilterFactory 未替换为指定模式

所以我对 Solr 很陌生但我尝试使用 PatternReplaceCharFilterFactory 对将存储的电话号码字符串进行一些预处理这是该字段的配置
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
Solrcloud Zookeper 设置：等待 4000ms 后未找到注册的领导者，集合：c1 切片：shard2

我使用 solr 4 10 3 我通过 java 中的嵌入式 jetty 服务器启动 solr 我正在尝试使用 2 个分片领导者配置 solrcloud 我有一个外部动物园管理员设置我在启动 solr 时指向动物园管理员实例如下所示
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
如何使用 solrnet 在 solr 中使字段搜索不区分大小写

在 solr 模式中我有如下字段
如何禁用 solr 管理页面

对于生产来说拥有一个甚至不要求登录凭据的 solr 管理员感觉不安全如何禁用默认的 solr 管理页面我只是希望我的 web 应用程序使用 Solr 进行搜索词索引我强烈建议保留管理页面用于调试目的它在很多情况下拯救了我有多种方
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Solr 在 TrieDateField 上按年份过滤

我的 Solr 模式有一个字段类型tdate班级的solr TrieDateField
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1

随机推荐

如何检测 SKSpriteNode 是否已被触摸

我正在尝试检测我的精灵节点是否已被触摸但我不知道从哪里开始 let Pineapple SKSpriteNode imageNamed Pineappleimg Pineapple userInteractionEnabled true
双重包含和仅标头库 stbi_image

我有一个 main cpp 包括 a h 它有自己的 a cpp a h 包含仅标头的库 stbi image h 如下所示 ifndef STB IMAGE IMPLEMENTATION define STB IMAGE IMPLEMEN
JSONP 请求在 Angular 应用程序中给出 404

我试图通过 JSONP 请求从 API 获取一些数据但每次都会收到 404 错误我假设我的 URL 是错误的但我可以在 Chrome 中手动点击 URL 并获得所需的响应我的 http jsonp请求总是出现 404 错误出现在我
有什么方法可以检测用户是否在 beforeunload 事件中按下了“留在页面”或“离开页面”？

有什么方法可以在以下代码中检测到用户单击了离开页面或留在页面上按钮吗 window on beforeunload function return You save some unsaved data Do you want to
提高动画流畅度（控件的移动）

我通过以下方式实现了网格控件移动的动画
尝试通过安全透明方法访问安全关键方法失败

尝试通过安全透明方法 PayPal UserAgentHeader get OperatingSystemFriendlyName 访问安全关键方法 System Management ManagementObjectSearcher ct
如何在初始化期间从控制器获取阶段？

我想从我的控制器类处理阶段事件即隐藏所以我所要做的就是添加一个这样的监听器 Stage myPane getScene getWindow setOn whatIwant 但问题是初始化在这段代码之后立即开始 Parent root F
找到隧道“中心线”？

我有一些由代表隧道的折线每条线只是顶点列表组成的地图文件我想尝试找到隧道中心线粗略地在下面以红色显示我过去使用过一些成功的方法德劳内三角剖分但我想避免使用这种方法因为它通常不允许轻松频繁地修改我的地图数据关于我如何能
resultset.getObject 上的 AbstractMethodError

所以我正在构建一个minecraft插件该插件的一部分从mysql获取一堆块数据并在服务器启动时将其加载到缓存中我有一些代码在 Eclipse 测试用例中运行良好然而当我在本地我的世界服务器中加载插件时我得到了异常 java l
如何删除 Pandas 中以相同文本结尾的多列？

我正在尝试删除数据集中的一组列所有要删除的变量都以文本前缀结尾 I did manage to collect them into a group using the following 然后尝试了一系列方法来删除该组结果导致了各
查找并选择 pandas DataFrame 中列最频繁的数据

我有一个包含以下列的数据框 file DirViento Fecha 2011 01 01 ENE 2011 01 02 ENE 2011 01 03 ENE 2011 01 04 NNE 2011 01 05 ENE 2011 01 06
如何在 firebase 电话身份验证 (OTP) android 中禁用 reCaptcha？

我最近更新了 firebase 库没有更改任何其他内容 implementation com google firebase firebase auth 20 0 1 implementation com google firebase
使用 CompositeServerSelector 选择服务器 30000 毫秒后发生超时

我尝试在 Mongolabs 中部署我的 Mongo 数据库一切正常然后我创建了一个新数据库请查看我的连接字符串 public DbHelper MongoClientSettings settings new MongoClient
将 argparse 与采用 **kwargs 参数的函数一起使用

我在用着argparse接受输入并将其传递给一个函数该函数将两个变量作为参数 kwargs 这是我的功能 import requests import sys import argparse def location by coordin
Android Studio 0.4.+ 自定义调试密钥库

在 Android Studio 0 4 之前我可以通过以下方式设置自定义调试密钥库 File gt Project Structure gt Facets gt Compiler Tab 这个选项至少在 Android Studio 0
使用 JavaScript 或 jQuery 选择/复制文本

我听说如果不使用 Flash 之类的东西就无法复制文本在浏览器中那么有没有一种方法可以使用锚点和 JavaScript 或 jQuery 选择文本 p Text to be copied p a Copy Text Above a 在
Visual C++ 2010 与 VC 2008 的兼容性

我正在使用 Visual C 2010 编译一个程序但我不希望每个人都必须下载可再发行包来运行我的程序大多数使用我的程序的人都已经有了 VC 2008 可再发行包那么有没有办法可以编译它并与 VC 2008 兼容或者有地方可以下载V
gt表中多列的条件格式化

这是我的第一篇文章如果我搞砸了一些事情我深表歉意我正在尝试将条件格式应用于 gt 表的多个列将示例 SampA SampB 和 SampB 的结果与 Limit 进行比较跟随其中一位的带领例子和一个不同的堆栈溢出问题我已成功使用
为什么无法捕获 MissingMethodException？

我的 ClickOnce 部署的应用程序依赖于 NET 2 0 SP2 这ApplicationDeployment CurrentDeployment CheckForDetailedUpdate false 方法仅限 SP2 我想检查应
搜索存储在 Hadoop 中的文档 - 使用哪个工具？

我迷失在 Hadoop Hbase Lucene Carrot2 Cloudera Tika ZooKeeper Solr Katta Cascading POI 当您阅读有关该工具的信息时您通常可以确定其他每一种工具都会被提及我并不指

搜索存储在 Hadoop 中的文档 - 使用哪个工具？

搜索存储在 Hadoop 中的文档 - 使用哪个工具？ 的相关文章

随机推荐

热门标签

搜索存储在 Hadoop 中的文档 - 使用哪个工具？的相关文章