以近乎实时的间隔刷新 RSS 源

2024-01-07

我有一个可以获取几百个 RSS 提要的系统。目前它们的刷新周期为 10 分钟,但我希望能够加快速度。以近实时/推送间隔获取 RSS 源的策略是什么?

我遇到的一些解决方案:

  • 在 1 分钟时进行一次获取;如果没有变化,则在 2 处再次获取,然后是 4 处,然后是 8 处,依此类推。
  • 找到 RSS feed 的平均更新间隔/方差,并将它们放入一个桶中(这个每 3 分钟更新一次,所以每 1 分钟检查一次;这个每周更新一次,所以每天检查一次) , ETC。)

没有办法让“拉”变得又快又高效。您可以更频繁地进行轮询(并且效率较低),或者通过减少轮询来提高效率。

实现近实时体验的唯一方法是在正确的时间进行轮询:)

幸运的是,一些发布者(越来越多!)使用 PubSubHubbub 来更新他们的提要并让订阅者知道。其他服务如超级喂食器 http://superfeedr.com(我在 Superfeedr 工作)使用不同的技术来了解何时是获取提要的最佳时间(基于历史更新、相关提要中的更新...等)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

以近乎实时的间隔刷新 RSS 源 的相关文章

  • 头部内有多个 RSS 链接标签,标记是否有效?

    在 RSS feed 中包含多个 RSS feed 是否有效 tag 我的意思是 标签如下 etc 我们有一小部分 总共五个 RSS 提要 我们已经拥有了一段时间 但只在头标签中包含了 主要 提要 可以将它们全部包括在内吗 是的 这是完全有
  • 用于 Git 更新的 RSS 提要

    是否有我可以订阅的 RSS Atom 提要或 Git 更新邮件列表 我发现很难跟上最新版本 因为我无法知道新版本何时发布 对于 msysgit Windows 端口 它只是 Google Code 提供的 feed http code go
  • 大型 RSS 阅读器如何工作(netvibes、Google 阅读器...)

    我想知道像 Google Reader Logline technorati 这样的 Web 应用程序是如何工作的 以及它们遵循哪些技术使用 cron 作业一次性解析数百万个 RSS 提要 有一个lot不同的技术 最糟糕 的技术就是您所描述
  • 如何将 CSS 引用添加到 .NET SyndicatedFeed?

    我创建了一个包含许多 Syndicates 的简单 SyndicatedFeed 每个 SyndicateItem 都有 HtmlContent HtmlContent 是一个表 这显示正常 但现在我需要在桌子上添加最少的样式 填充 我相信
  • 自动从网页中提取提要链接(atom、rss等)[关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我有一个巨大的 URL 列表 我的任务是将它们提供给一个 python 脚本 该脚本应该吐出提要 UR
  • RSS 源中的有效 HTML 标签是什么?

    我环顾四周 似乎没有任何关于 RSS 中 允许 HTML 标签的标准 你可以放入任何内容 But我测试的读者只允许某些事情 在我最初的测试中 看起来像 这样的简单样式标签就可以了 像 这样的内联样式似乎也有效 但是 和 22359 3711
  • XDocument.Load(feedUrl) 返回“根级别的数据无效。第 1 行,位置 1。”

    首先 这更多的是一个解决方案 而不是一个问题 我花了一段时间才解决 所以我认为我的解决方案值得分享 我试图使用加载 RSS 提要XDoument Load feedUrl 并收到上述异常 我检查了养活自己 http www limun hr
  • 检索早于提要中包含的 RSS 帖子

    创建 RSS 阅读器时 您可以下载 RSS 提要链接指向的 XML 格式文档 并且可以手动解析它或使用 SyndicateFeed 命名空间中的功能 因此 如果我们以 Scott Guthrie 的博客为例 您下载 RSS feed 文档h
  • 在 SQL 数据库中保持 RSS 提要唯一的最佳实践

    我正在开发一个项目 该项目显示来自不同站点的 RSS 提要 我将它们保存在数据库中 我的程序每 3 小时获取一次并将它们插入到 SQL 数据库中 我希望提供者有独特的记录 不要显示重复的内容 但问题是一些提供商不提供 GUID 字段 而其他
  • Google feed api 已弃用,我如何找到网站的 rss feed? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我使用 Google Feed API 来查找特殊关键字或网站的 rss feed 现在这个 api
  • RSS:刷新率?

    我正在编写一个供自己使用的小应用程序 它将使用公开发布的 RSS 提要 据我所知 该协议中没有订阅 发布机制 我需要让我的应用程序定期通过 HTTP GET 获取 RSS 提要 如果是这样的话 我想每隔十分钟左右就抢一次 但我担心被视为施虐
  • 无法解析 RSS 提要

    我正在尝试使用 python 中的 feedparser 从 url 解析 RSS 提要 gt gt gt import feedparser gt gt gt d feedparser parse http www shop inonit
  • HTML5 -

    Reading 一篇文章 http html5doctor com the article element on the
  • 在Python中从feedparser解析不同的日期格式?

    我正在尝试通过以下方式获取两个不同 RSS 提要中的条目的日期feed解析器 http feedparser org 这是我正在做的事情 import feedparser as fp reddit fp parse http www re
  • 是否可以获取 RSS 存档

    我知道 rss feed 是新闻 是否可以获取昨天或前天的 rss feed 更准确地说 是 rss feed 的存档 不 服务器决定向您提供哪些帖子 您的 RSS 服务器可能被配置为通过向 feed url 提供参数来让您拥有更多帖子 但
  • 如何使用 ASP.NET Web API 生成 ATOM 和 RSS2 提要?

    需要采取哪些步骤来调整 ASP NET Web API 的默认 XML 输出以生成 ATOM 和 RSS2 提要 您将需要实现自定义 MediaTypeFormatter 您可能想查看 Filip 的博客文章用于 ASP NET WebAP
  • Rome XmlReader 不读取 https feed

    我正在尝试阅读https d3ca01230439ce08d4aab0c61810af23 电子邮件受保护 录音 atom https d3ca01230439ce08d4aab0c61810af23 bla mycon mycompany
  • 无法在 Yahoo! 中输出 pubDate管道?

    在我在 Yahoo 上的 RSS 提要之一中Pipes 我使用 Date Formatter 模块并使用格式 K 来格式化日期 以便它们符合 pubDate 标准 在管道输出中 我的四个日期显示如下 Wed 25 Jul 2012 03 3
  • 雅虎管道克隆脚本?

    Yahoo Pipes 缺乏处理能力 无法与远东网站良好配合 我需要处理来自多个位置的复杂正则表达式 每分钟数百个帖子 而 Yahoo Pipes 无法生成结果 是否有类似 Yahoo Pipes 的代码或脚本可以在我自己的服务器中使用 P
  • 如何从 RSS feed 中获取图像

    我正在尝试从 URL 获取 RSS 新闻http timesofindia indiatimes com rssfeeds 1945062111 cms http timesofindia indiatimes com rssfeeds 1

随机推荐

  • Socket.io 在 Express Route 上发出

    我想在调用某些 API 路由时向客户端发送一些数据 我必须遵循 server js 上的代码 var app express var http require http Server app var io require socket io
  • 为什么此代码在到达 StreamReader 的第一个 ReadLine 时挂起?

    我在第一个参数中将一个大文件传递给下面的 SendXMLFile 但由于它导致手持设备 挂起 冻结 我暂时硬编码了一个小得多的文件 3 KB 而不是 1121 KB 供测试用 该文件确实存在 与 exe dll 位于同一文件夹中 如以下代码
  • Iframe 和同源策略以及反向代理黑客

    我一直在阅读具有不同域的 Iframe 然后是父文档 我有点困惑 据我了解 如果 iframe 与其父文档来自同一域 则父文档可以访问 iframe 的文档 看来我可以通过以下技巧来规避这个问题 我在以下位置设置了一个网络服务器mydoma
  • Android:处理ListView回收

    我正在开发一个音板应用程序 在其中使用 Listview Activity 但是由于Android的Listview具有回收其listview的属性 滚动列表视图时 我对所选文本视图所做的更改会反映在所有页面中 我不希望这种事发生 那么我该
  • J2ME 的 JSON 解析器

    我需要一个与 J2ME CLDC 1 1 配合使用的基本 JSON 解析器 Google 搜索返回了大量关于此问题的答案 有些甚至在 stackoverflow 上 但似乎所有内容都指向不再可用的库和解决方案 例如 很多都指向应该位于 js
  • 过滤负时间增量

    考虑一系列持有timedelta64 ns 测量两个事件 A 和 B 之间的时间差 gt time deltas 499900 1 days 23 45 13 499916 1 days 23 50 57 499917 00 03 27 4
  • VB 6:如何执行 .bat 文件但等到其运行完成后再继续?

    VB 6 如何执行 bat 文件但等到其运行完成后再继续 您将需要使用 Win32 API 调用Shell执行Ex http msdn microsoft com en us library bb762154 VS 85 aspx和从SHE
  • 如何处理自动模块中的拆分包?

    我目前正在测试将现有应用程序迁移到 Jigsaw Modules 我的模块之一使用 ElasticSearch 及其 Groovy 插件 org elasticsearch elasticsearch org elasticsearch m
  • boost::spirit 替代解析器返回重复项

    我正在研究https github com F Bergemann RegexSplitter https github com F Bergemann RegexSplitter 目的 解析正则表达式字符串 并创建可破坏和不可破坏的顶级子
  • 将整数数组转换为字符串的最佳方法是什么?

    我想转换一个 int 数组 像这样 1 1 2 1 转换为字符串 1121 最好的 最Pythonic的 方法是什么 我总是可以这样做 然后删除多余的括号 gt gt gt str 1 2 1 1 1 2 1 1 或者我可以这样做 s fo
  • Oracle 数据库变更通知

    我是 DCN 新手 我可以使用它来检测表中列的更新以及该表中的插入吗 我指的是this https docs oracle com cd E11882 01 java 112 e16548 dbchgnf htm JJDBC28815 是的
  • 如何修复div高度

    我正在开发一个聊天控制应用程序 我的问题是这样的 我输入文本 这用于拨打休息电话 获取响应并将其添加到聊天窗口 目前我的问题是这样的 聊天窗口变大 页面随着聊天框 div 一起滚动 有人可以告诉我如何停止整个页面的这种增量吗 简单来说 我的
  • 如何停止R中的for循环并保留数据

    我的代码在日期的 for 循环中运行 该代码需要一段时间才能运行 还剩几天时间 但我迫切需要任何结果 有没有办法打破代码 for 循环 但保留到目前为止已生成的所有数据 是的 您可以按 escape 检查结果 然后重新启动循环 for ii
  • 扩展协议,其中 Self:Swift 中的通用类型(需要 <...> 中的参数)

    我有一个需要泛型的类class Collection
  • 如何将 csv 字符串转换为 pandas 中的列表?

    我正在使用具有以下格式的 csv 文件 Id Sequence 3 1 3 13 87 1053 28576 2141733 508147108 402135275365 1073376057490373 97003854893559701
  • Jquery - 使用 .load 和选择器加载页面不会执行脚本?

    我正在尝试使用 load 方法将一个页面加载到另一页面中 此加载的页面包含一个我想在加载完成后执行的脚本 我整理了一个简单的示例来演示 索引 html
  • MVC:存储库和服务

    我对存储库中定义的内容以及留给服务的内容的限制感到困惑 存储库应该只创建与数据库中的表匹配的简单实体 还是可以使用这些实体的组合创建复杂的自定义对象 换句话说 服务是否应该在存储库上进行各种 Linq to SQL 查询 或者所有的查询都应
  • GSON 将布尔值序列化为 0 或 1

    All 我正在尝试执行以下操作 public class SomClass public boolean x public int y public String z SomClass s new SomClass s x true s y
  • Pandas Multiindex 从索引的第一个条目获取值

    我有以下多索引数据框 from io import StringIO import pandas as pd datastring StringIO File no runtime value1 value2 A 0 0 12 34 A 0
  • 以近乎实时的间隔刷新 RSS 源

    我有一个可以获取几百个 RSS 提要的系统 目前它们的刷新周期为 10 分钟 但我希望能够加快速度 以近实时 推送间隔获取 RSS 源的策略是什么 我遇到的一些解决方案 在 1 分钟时进行一次获取 如果没有变化 则在 2 处再次获取 然后是