根据浏览量/评论计算页面重要性的算法

2024-01-06

我需要一种算法来确定合适的<priority>我的网站的字段sitemap http://www.sitemaps.org/protocol.php基于页面的浏览量和评论数。

对于那些不熟悉站点地图的人来说，优先级字段用于表示页面相对于同一网站上其他页面的重要性。它必须是 0 到 1 之间的十进制数。

该算法将接受两个参数，viewCount and commentCount，并将返回优先级值。例如：

GetPriority(100000, 100000); // Damn, a lot of views/comments! The returned value will be very close to 1, for example 0.995
GetPriority(3, 2); // Ok not many users are interested in this page, so for example it will return 0.082

您提到在 SQL 查询中执行此操作，因此我将在其中提供示例。

如果您有表/视图Pages，像这样的

Pages
-----
page_id:int
views:int  - indexed
comments:int - indexed

然后你可以通过写来订购它们

SELECT * FROM Pages
ORDER BY 
    (0.3+LOG10(10+views)/LOG10(10+(SELECT MAX(views) FROM Pages))) +       
    (0.7+LOG10(10+comments)/LOG10(10+(SELECT MAX(comments) FROM Pages)))

我故意在观点和评论之间选择了不平等的权重。与视图/评论保持相同的权重可能出现的一个问题是，排名变成了一个自我实现的预言——一个页面返回到列表的顶部，因此它的访问频率更高，从而获得更多的分数，所以它是显示在列表的末尾，并且访问次数更频繁，并且获得更多积分......对评论给予更多重视反映了这些评论需要真正的努力并表现出真正的兴趣。

上面的公式将为您提供基于历史统计数据的排名。因此，上周积累的浏览量/评论数与去年另一篇文章积累的浏览量/评论数相同的文章将获得相同的优先级。重复该公式可能是有意义的，每次指定日期范围，并优先考虑活动较高的页面，例如

  0.3*(score for views/comments today) - live data
  0.3*(score for views/comments in the last week)
  0.25*(score for views/comments in the last month)
  0.15*(score for all views/comments, all time)

这将确保“热门”页面比最近没有太多操作的类似评分页面获得更高的优先级。除了今天的分数之外的所有值都可以通过计划的存储过程保留在表中，以便数据库不必聚合许多评论/视图统计信息。只有今天的统计数据是“实时”计算的。更进一步，排名公式本身可以通过每天运行的存储过程来计算和存储历史数据。

编辑：要获得从 0.1 到 1.0 的严格范围，您可以像这样设计公式。但我强调 - 这只会增加开销并且是不必要的 - 优先级的绝对值并不重要 - 只有它们与其他 url 的相对值。搜索引擎使用这些来回答以下问题：URL A 是否比 URL B 更重要/相关？它通过比较它们的优先级（哪一个是最大的）而不是它们的绝对值来做到这一点。

// 非标准化 - x 是某个页面 id un(x) = 0.3*log(观看次数(x)+10)/log(10+最大观看次数()) + 0.7*log(评论数(x)+10)/log(10+最大评论数()) // 原始公式（现在是伪代码）

最大值将为 1.0，最小值将从 1.0 开始，并随着更多视图/评论的增加而向下移动。

我们定义un(0)为最小值，即（上式中views(x)和comments(x)均为0）

要获得从 0.1 到 1.0 的标准化公式，您需要计算 n(x)，即页面的标准化优先级x

                  (1.0-un(x)) * (un(0)-0.1)
  n(x) = un(x) -  -------------------------    when un(0) != 1.0
                          1.0-un(0)

       = 0.1 otherwise.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

根据浏览量/评论计算页面重要性的算法的相关文章

以一定角度遍历二维数组

通常我们按行或列遍历数组但这里我想以角度遍历它我会尝试解释我的意思因此假设角度是 45 度那么它会搜索为 0 0 then 0 1 1 0 then 0 2 1 1 2 0 等等抱歉无法上传图像因为我是新用户不允许这样做
我想优化这个短循环

我想优化这个简单的循环 unsigned int i while j 0 j is an unsigned int with a start value of about N 36 000 000 float sub 0 i 1 unsig
Python Pandas groupby、排名，然后根据自定义排名分配值

问题设置大熊猫数据框 df pd DataFrame Group A A A A A A A A A Subgroup Group 1 Group 1 Group 1 Group 1 Group 1 Group 1 Group 2 Gro
Bellman-Ford 算法检测什么？负重还是负循环？

如果给定一个图现在我们要从源头计算最短路径现在如果一条边具有负权重但在到达目的地时有边到后边返回到该边我的意思是如果没有循环那么我们就没有负循环但是here http en wikipedia org wiki Bellman
稀疏矩阵中的最大和子矩形

求一个子矩形中的最大和NxN矩阵可以完成O n 3 正如其他帖子中指出的使用 2 d kadane 算法的时间然而如果矩阵是稀疏的具体来说O n 非零条目可以O n 3 时间被打败了吗如果有帮助的话对于我感兴趣的当前应用程序
在无向图中查找强连通分量

我想在无向图中找到强连接的组件即如果我从节点开始A然后我会回到节点A并且每条边都被恰好访问一次对于有向图可以使用Tarjan算法来寻找强连通分量但是对于无向图怎么办我认为您错过了强连通分量的含义强连接组件如果所有顶点对之间都存在
按度数在圆上找到一个点？

假设我们有一个 100x100 坐标系如下所示 0 0 是它的左上角 50 50 是它的中心点 100 100 是它的右下角等等现在我们需要从中心向外画一条线我们知道线的角度但需要计算其终点的坐标您认为最好的方法是什么例如如
编程语言语法中尾随逗号的历史

许多编程语言允许在其语法中在列表中的最后一项后面使用尾随逗号据说这样做是为了简化自动代码生成这是可以理解的作为示例以下是 Java 中完全合法的数组初始化 JLS 10 6 数组初始值设定项 http java sun com do
什么是悲观主义？

该问题有评论可以使用C 11的吗auto提高性能 https stackoverflow com questions 32510183 can the use of c11s auto improve performance这获得了很多选票
Java：如何实现3和？

我正在研究 3 Sum 来自己实现它并遇到了以下规则的实现给定一个由 n 个整数组成的数组 S S 中是否存在满足 a b c 0 的元素 a b c 查找数组中所有总和为零的唯一三元组注意三元组 a b c 中的元素必须按非降序排
在 Java 中实现排列算法的技巧

作为学校项目的一部分我需要编写一个函数该函数将接受整数 N 并返回数组 0 1 N 1 的每个排列的二维数组该声明看起来像 public static int permutations int N 该算法描述于http www usn
使用FFT算法计算

给定在平面上的点 1 0 2 0 n 0 上发现的一组 n 个粒子电荷载流子在 i 0 点发现的粒子电荷记为 Qi 作用在粒子上的力由以下公式给出 C is a Coulomb s constant 给出一个算法来计算 Fi 对于总复杂度
从日志文件中获取前 100 个 URL

我的一位朋友在接受采访时被问到以下问题谁能告诉我如何解决它我们有一个相当大的日志文件大约 5GB 日志文件的每一行都包含一个用户在我们网站上访问过的 URL 我们想要找出用户访问最多的 100 个 URL 怎么做如果我们有超过 10
编程 Pearls - 随机选择算法

Programming Pearls 第一版第 120 页介绍了从 N 个整数总体中选择 M 个等概率随机元素的算法 InitToEmpty Size 0 While Size lt M do T RandInt 1 N if not Me
Codility 钉板

尝试了解 Codility NailingPlanks 的解决方案问题链接 https app codility com programmers lessons 14 binary search algorithm nailing pla
如何将无向图转换为 DAG？

The 维基页面 http en wikipedia org wiki Directed acyclic graph Relation to other kinds of graphs says 任何无向图都可以通过为其顶点选择总顺序并将每
高维最近邻搜索的最佳数据结构

我实际上正在处理高维数据 50 000 100 000 个特征并且必须对其执行最近邻搜索我知道随着维度的增长 KD 树的性能很差而且我还了解到一般来说所有空间分区数据结构都倾向于对高维数据执行详尽的搜索此外还有两个重要事实需要
图中的后边

I m having a hard time understanding Tarjan s algorithm for articulation points I m currently following this tutorial he
找到一系列间隔的最有效分组

我有一个应用程序其中有一系列不重叠的固定宽度间隔每个间隔都有一个给定的键每个间隔具有相同的宽度并且可以存在连续的间隔本质上我想以最小化单独间隔的数量的方式对间隔和键进行分组这可以通过合并具有相同键的连续间隔或查找匹配间隔并将它
点集子集的最小周长凸包

给定平面上的 n 个点没有 3 个共线给定数字 k 找到 k 个点的子集使得 k 个点的凸包在 k 个点的子集的任何凸包中具有最小周长我可以想到一个简单的方法运行时间为 O n k k log k 找到大小为 k 的每个子集的凸包

随机推荐

计时器无法正确触发

我使用计时器来切换布尔值但它并没有像预期那样每 250 毫秒触发一次而是尽可能快地触发这是我的代码 package com cgp tetris import java awt Graphics import java awt eve
brms：如何设置分类变量的优先级？

我正在使用 2 个分类变量构建二项式回归模型这是统计反思一书中的一个例子在书中在使用 rethinking 包时我们可以对每个分类变量设置先验如下所示 m11 5 lt ulam alist pulled left dbino
JPA 本机查询删除

我尝试使用此本机查询从表中删除行列表 NamedNativeQuery name WebGroup DeleteIn query DELETE FROM WebGroup WHERE WebGroup GROUP ID IN IDsList
Eclipse 中包含 Android-DirectionalViewPager .jar 时出错

我正在尝试在我的应用程序中实现垂直滑动就像用浏览器 http android developers blogspot de 2011 08 horizontal view swiping with viewpager html 但垂直我
使用 Mockito 使用 @Transactional 方法模拟类

我有一个服务一个 bean 其中包含 Transactional method public class InMessageService Transactional public boolean retryInMessage Strin
Backbone.js - 通过构造函数传递参数

设想我得到了一个alert saying undefined当我尝试设置myVar通过构造函数变量但是如果我取消注释myVar它位于 myView 内部然后警报会显示 Hello from inside 正如人们所期望的那样问题
如何使用 SwiftUI 实现具有样式、文本和图标的可重用按钮？

我知道如何定制ButtonStyle作品但我确实想要一个完全可重用的自定义按钮又名带有文本和图标的按钮应用了一些样式我知道如何使用带有文本属性的 ButtonStyle 来实现此目的但我认为这完全是对按钮样式的滥用但我不想复制一
Flask/SQLAlchemy - 多对多关系的关联模型和关联表之间的区别？

我从 Flask Mega 教程开始学习这些东西当他进入多对多关系时他创建一个如下所示的关联表 followers db Table followers db Column follower id db Integer db Forei
创建虚拟机 X 时出错资源 Y 请求的大小当前在位置 Z 中不可用

我目前已在 Azure 中创建了测试实验室当我尝试创建Ubuntu Server 14 04 LTS它不断失败并显示以下错误消息创建虚拟机 TestVMUbuntu 时出错请求的大小对于资源 subscriptions resour
如何在 LINQ-to-SQL 中编写此交叉应用查询？

我有以下表格 create table TableA Id int primary key identity Key int not null create table TableB Id int primary key identity
https://pubsubhubbub.appspot.com/ 实际上是如何运作的以及我期望收到什么样的响应？

今天是个好日子出于上下文目的我正在尝试监视 Youtube 频道每当他们发布新视频时我都会收到通知并处理该条目我做了什么 a 设置回调 URL 来接收和回复集线器质询 b https pubsubhubbub appspot co
使用通用 JSON 对象作为请求正文

我有一个接收 JSON 对象作为输入的控制器但问题是 JSON 的内容会根据不同的请求而变化所以我无法映射RequestBody到 POJO 有没有办法可以将输入参数指定为通用参数JSONObject无需指定特定的 POJO 我试过 R
Hibernate 可以与 akka actor 一起使用吗？

我主要关心的是ThreadLocal akka actor 不绑定到特定线程因此任何线程本地存储的使用都会在 akka actor 上出现问题 Hibernate 使用ThreadLocal 在这种情况下它们可以共存吗是的我将 Hib
将 Redis 容器与另一个容器连接 (Docker)

因此我正在做一个项目其中有两个 Docker 容器一个用于主应用程序一个用于 Redis 顺便说一句使用 docker compose 当然我想连接两者并尝试默认的绑定设置但当然应用程序无法连接到数据库因为它们位于两个不同的
如何访问 MDM 设置的 UWP 应用程序设置？

我正在使用 EnterpriseModernAppManagement CSP 来安装和设置某些 UWP 应用程序的设置如下定义 https msdn microsoft com en us library windows hardwar
如何使用Android.mk中的gradle变量？

请问我想知道如何使用 Android mk 文件中 gradle 定义的变量或者是否有办法将某些变量从 gradle 传递到 Android mk 我知道这个问题看起来很奇怪但我尝试了很多可能性但没有成功事实上我正在与同学合作开
可变对象与不可变对象

我正在尝试了解可变对象与不可变对象使用可变对象会受到很多负面影响例如从方法返回字符串数组但我很难理解这样做的负面影响使用可变对象的最佳实践是什么您应该尽可能避免它们吗嗯这有几个方面没有引用标识的可变对象可能会在奇怪的时候导致
从进度指示器中删除矩形

我在 Java 8u40 中测试了进度指示器当我尝试制作简单的示例时我得到了这个视觉结果你知道如何删除矩形边框吗这对我有用没有边框或其他问题 JDK 1 8 0 20ea stage setWidth 100 stage setH
[ERROR KubeletVersion]：kubelet 版本高于控制平面版本

我是 kubernetes 新手正在设置我的第一个测试集群但是当我设置主节点时我会收到此错误但我不知道如何解决它 ERROR KubeletVersion the kubelet version is higher than th
根据浏览量/评论计算页面重要性的算法

我需要一种算法来确定合适的

根据浏览量/评论计算页面重要性的算法

根据浏览量/评论计算页面重要性的算法 的相关文章

随机推荐

热门标签

根据浏览量/评论计算页面重要性的算法的相关文章