apache solr：group by 产生的数据总和

2024-05-02

我们有一个要求，需要按特定字段对记录进行分组，并获取相应数字字段的总和

前任。 select userid, sum(click_count) from user_action group by userid;

我们尝试使用 apache solr 来做到这一点，发现有两种方法可以做到这一点：

使用字段折叠功能（http://blog.jteam.nl/2009/10/20/result-grouping-field-collapsing-with-solr/ http://blog.jteam.nl/2009/10/20/result-grouping-field-collapsing-with-solr/）但发现有两个问题： 1.1.这不是发布的一部分，而是作为补丁提供，因此我们不确定是否可以在生产中使用它。 1.2.我们不会取回总和，但会计算个人数量，我们需要在客户端对其进行求和。
使用统计组件以及分面搜索（http://wiki.apache.org/solr/StatsComponent http://wiki.apache.org/solr/StatsComponent）。这满足了我们的要求，但对于非常大的数据集来说还不够快。

我只是想知道是否有人知道任何其他方法来实现这一目标。感谢任何帮助。

Thanks,

Terance.

为什么不使用 StatsComponent？ - Solr 1.4 及以上版本可用。

$ curl 'http://search/select?q=*&rows=0&stats=on&stats.field=click_count' |
  tidy -xml -indent -quiet -wrap 2000000

<?xml version="1.0" encoding="utf-8"?>
<response>
  <lst name="responseHeader">
    <int name="status">0</int>
    <int name="QTime">17</int>
    <lst name="params">
      <str name="q">*</str>
      <str name="stats">on</str>
      <arr name="stats.field">
        <str>click_count</str>
      </arr>
      <str name="rows">0</str>
    </lst>
  </lst>
  <result name="response" numFound="577" start="0" />
  <lst name="stats">
    <lst name="stats_fields">
      <lst name="click_count">
        <double name="min">1.0</double>
        <double name="max">3487.0</double>
        <double name="sum">47912.0</double>
        <long name="count">577</long>
        <long name="missing">0</long>
        <double name="sumOfSquares">4.0208702E7</double>
        <double name="mean">83.0363951473137</double>
        <double name="stddev">250.79824725438448</double>
      </lst>
    </lst>
  </lst>
</response>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Lucene

Solr

apache solr：group by 产生的数据总和的相关文章

在 lucene 中搜索 UUID 不起作用

我有一个 UUID 字段以以下格式添加到我的文档中 372d325c e01b 432f 98bd bc4c949f15b8 但是当我尝试通过 UUID 查询文档时无论我如何尝试转义表达式它都不会返回它们例如 uuid 372d3
使用多个字段对 solr 搜索结果进行排序 (solrj)

我需要根据两个因素对从 apache solr 返回的结果进行排序我们的系统中有三个实体由 solr 索引组项目和数据集在结果中我希望首先显示数据集然后是项目然后是组但我仍然希望它尊重每种类型的评分值因此例如结果将是得
仅根据lucene中term出现次数较多的文档来计算分数

我开始研究基于 lucene net 引擎的简历检索文档组件它工作得很好它会获取文档并根据 VSM 背后的理念是查询词出现在 a 中的次数文档相对于数量该术语出现在所有集合中的文档越多该文件的相关内容是询问 Lucene
如何配置 Magento Enterprise 使用 Solr 作为主要搜索引擎？

我尝试寻找文档但它非常稀疏我编写了以下指南希望它可以帮助人们节省 2 3 个小时的安装设置和配置时间与 MySQL 全文搜索标准设置相比使用 Solr 带来的性能提升非常惊人在您的 Magento 安装中让它工作绝对值得花时间
Solr 高亮显示

我看到了这个帖子here https stackoverflow com questions 4058913 how to highlighting search results using apache solr with php cod
SOLR 中的子字符串匹配

我似乎无法弄清楚如何使用 SOLR 查找子字符串匹配我已经根据前缀找出了匹配这样我就可以让火腿与汉堡包匹配我如何搜索汉堡来匹配汉堡包我试过burger但这引发了错误或不允许作为 WildcardQuery 中的第一个字符如
Solr 索引与存储

我对太阳能场的索引和存储属性的行为有点困惑例如如果我在 Schema xml 中有以下内容
加速 solr 索引

Solr 索引花费的时间太长我使用的mysql有超过3000万条记录我正在使用两级子查询请向我建议索引数据的最佳实践以便我可以加快该过程查看Solr性能因素 http wiki apache org solr SolrPerfor
SLES Apache Solr start.jar，无法访问 jarfile

我在启动 Apache Solr 搜索时遇到一些问题在我的 SLES 11 64 位服务器上安装 java 7 后我将 solr 3 6 1 解压到 srv apache solr 3 6 0 之后我想启动该软件但是当我尝试时 jav
Lucene 3 上的“令牌”列表

我是 Lucene 的新手我开始学习版本 3 分支但有一件事我不明白显然是因为我在该主题上没有经验在 Lucene 2 9 中如果我想要一个令牌列表我会创建一个 Token 类的 ArrayList 例如 ArrayList 这
如何使用 pysolr 对 solr 进行原子更新？

我找不到关于如何使用 pysolr 更新 solr 的合适文档截至 2014 年 11 月原子更新 https github com toastdriven pysolr commit c49be48d459448532b5ad0f505
Solr 中的多值字段排序

我有一个 Solr 索引将每个产品的价格存储在多值字段中我需要按价格对结果集进行排序其中价格从低到高从高到低我尝试对价格进行排序它显示错误您无法对 multivalued True 字段进行排序下面是我的 solr XML
MIME 类型/内容类型，用于在 IE 和 Firefox 中使用 Excel 打开 CSV 文件

我在 Excel 中识别并打开 CSV 输出时遇到问题在我的 Web 应用程序中我有一个 java servlet 它将搜索结果返回给用户搜索结果由 Apache Solr 服务器提供 GUI 前端有一个选项允许用户请求 CSV 格
Lucene 评分：在什么情况下使用 queryNorm？

我对 lucene 的评分策略有点困惑我知道Lucene的评分公式是这样的 score q d coord q d x queryNorm q X SUM
如何使用 Solr 索引 pdf 内容？

我正在尝试使用 SolrJ 索引一些 pdf 文档如下所述http wiki apache org solr ContentStreamUpdateRequestExample http wiki apache org solr Cont
如何在 Lucene 5 中获取 Span Term 查询的匹配范围？

在 Lucene 中要获取术语周围的单词建议使用跨度查询有很好的演练http lucidworks com blog accessing words around a positional match in lucene http l
SLF4J 日志记录到文件 vs. DB vs. Solr

我需要一些关于 SLF4J 日志记录的建议目前我们正在为 Java Web 应用程序使用 SLF4J 日志记录 log4j 绑定该应用程序使用简单的 ConsoleAppender 我们的下一步是研究可以保存日志的地方我们的应用程序
Lucene，索引已经/外部标记化的标记并定义自己的分析过程

在使用Lucene的过程中我有点失望我不明白或不明白我应该如何继续为任何 Lucene 分析器提供已经可直接索引的东西或者我应该如何继续创建我自己的分析器例如如果我有一个List
在 solr 8 中的 fl 中使用父过滤器时获取“当架构嵌套时不应发送父过滤器”

我正在尝试使用子文档获取父文档但得到当模式嵌套时不应发送父过滤器 error 附上下面我尝试过但无法得到解决方案的查询 q parent which content type person fl child parentFilter c
Solr 在 TrieDateField 上按年份过滤

我的 Solr 模式有一个字段类型tdate班级的solr TrieDateField

随机推荐

从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
为什么使用 UINavigationController 时不能强制横向？

我发现很多问题强制 UIViewController 默认为横向如何在 iOS 6 中强制 UIViewController 为纵向 https stackoverflow com questions 12520030 how to fo
XML 属性用法“android:focusableInTouchMode”

请告诉我为什么使用以下 XML 属性我查阅了developer android com 上的文档但什么也看不懂 android focusableInTouchMode 这篇博文 http android developers blog
在 numba.jit 装饰器中使用并行选项会使函数给出错误的结果

给定一个矩形的两个对角 x1 y1 and x2 y2 和两个半径r1 and r2 找到位于由半径定义的圆之间的点的比率r1 and r2到矩形中的点数简单的 NumPy 方法 def func 1 x1 y1 x2 y2 r1 r2
使用私有 git 存储库时的 go 工作区结构

当你不使用 github 时我一直在尝试找出 go 代码工作区的标准文件夹布局结构我可以看到如何go get在获取 github 项目时有效但假设我自己的 git 项目不会有 github com username project
我可以计算 SQL Server 中两个日期之间有多少个周末吗？

我正在计算为一份报告租用设备的收入其中周末的招聘成本会比平日增加10 那么我如何计算两个日期之间有多少个周末呢在报告查询中我也不能使用DECLARE 有人可以帮我做到这一点吗太感谢了这应该有效 DECLARE StartDate
物化视图与表：有什么优点？

我很清楚为什么物化视图比仅查询基表更可取不太清楚的是与仅创建另一个具有与 MV 相同数据的表相比的优势 MV 的唯一优势真的只是易于创建维护吗 MV 不是相当于具有匹配架构的表和使用 MV SELECT 语句的 INSERT INTO
为什么 Yeoman 构建时没有字形图标？

我正在研究一个webapp发电机及运行后grunt我有一个可以正确显示字体的功能应用程序然而当我检查dist 目录我没有得到任何字体文件文档指出grunt命令build the application for deployment 但
无法在 Mac OS X 10.7 上的 virtualenv 中使用 pip 安装 psycopg2

我正在按照 Heroku 的教程部署 Django 应用程序 http devcenter heroku com articles django preventions http devcenter heroku com articles
Android 日历示例（如 Google 日历）[已关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想在我的 Android 应用程序中添加一个日历用户可以在其中查看他们的每日日程安排就像谷歌日历
在哪里以及如何为我的 asp.net MVC 3 Web 应用程序定义

我想将自定义错误设置为 true 以防止用户查看有关我的应用程序的详细信息但我找不到应该在哪里写这个
使用放心获取重定向的 URL？

我正在发出一个 GET 请求然后进行 307 重定向到另一个 URL 并从那里进行另一个 302 重定向依此类推直到到达所请求的页面我在从第一个重定向 307 中提取 URL 时遇到问题我想查看重定向到的位置我使用放心作为框架
2 个 Python 字典如何变成 1 个？ [复制]

这个问题在这里已经有答案了可能的重复 Python 扩展字典 https stackoverflow com questions 577234 python extend for a dictionary 我知道 Python 列表可以
socket.io：未触发断开连接事件

我做了一个简单的实时访客计数器您可以从以下位置下载这个存储库 https bitbucket org bitliner nodejs mycounter 发生的情况是服务器上的断开连接事件即使在浏览器关闭后永远不会被触发 serve
如何判断 F# 函数是否是纯函数？

假设我有这两个 F 函数 let sq x x x let tm DateTime Now 显然 sq 是纯的因为它对于给定的输入总是返回相同的值而 tm 是不纯的因为每次调用它时都会返回不同的值一般来说有没有一种方法可以确定 F
三次样条内存错误

在具有 4GB 内存的计算机上这种简单的插值会导致内存错误基于 http docs scipy org doc scipy reference tutorial interpolate html http docs scipy org
如何在 React Native 中从自定义导航器导航到 createBottomTabNavigator？

我有一个自定义导航器因为我想使用向后滑动手势返回到上一个屏幕下面是调用导航器的主文件的代码 const MainSwipeStack gt return
在 C# 中进行进程间通信 (IPC) 最简单的方法是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我有两个 C 应用程序我希望其中一个向另一个发送两个整数这不必很快因为它每隔几秒调用一次做到这一点最简单的方法是什么它不一定是最优雅的
Python 记录到标准输出和日志文件

我对 python 相当陌生并开始进入日志记录模块我希望将消息记录到日志文件中并输出到控制台下面的代码将消息打印到控制台但是如何将所有消息记录到文件中 Logger 对象没有用于记录到文件的函数调用 basicConfig file
apache solr：group by 产生的数据总和

我们有一个要求需要按特定字段对记录进行分组并获取相应数字字段的总和前任 select userid sum click count from user action group by userid 我们尝试使用 apache solr

apache solr：group by 产生的数据总和

apache solr：group by 产生的数据总和 的相关文章

随机推荐

热门标签

apache solr：group by 产生的数据总和的相关文章