如何为 Twitter 文章聚合器设计 MongoDB 架构

2024-01-03

我是 MongoDB 的新手,作为练习,我正在构建一个从推文中提取链接的应用程序。这个想法是获取某个主题的推文最多的文章。我很难为这个应用程序设计架构。

  • 该应用程序收集推文并保存它们
  • 解析推文中的链接
  • 链接与附加信息(标题、摘录等)一起保存
  • 一条推文可以包含多个链接
  • 一个链接可以有很多推文

我如何能:

  • 保存这些集合,嵌入文档吗?
  • 获取按推文数量排序的前十个链接?
  • 获取特定日期推文最多的链接?
  • 获取推文的链接?
  • 获取十条最新推文?

我很想就此获得一些意见。


两个一般提示: 1.)不要害怕重复。将相同的数据以不同的格式存储在不同的集合中通常是一个好主意。

2.) 如果你想对东西进行排序和总结,它有助于在任何地方保留计数字段。 mongodb 的原子更新方法与 upsert 命令一起可以轻松统计并向现有文档添加字段。

下面的内容肯定是有缺陷的,因为它是我凭空想出来的。但我认为坏例子总比没有例子好;)

colletion tweets:

{
  tweetid: 123,
  timeTweeted: 123123234,  //exact time in milliseconds
  dayInMillis: 123412343,  //the day of the tweet kl 00:00:00
  text: 'a tweet with a http://lin.k and an http://u.rl',
  links: [
     'http://lin.k',
     'http://u.rl' 
  ],
  linkCount: 2
}

collection links: 

{
   url: 'http://lin.k'
   totalCount: 17,
   daycounts: {
      1232345543354: 5, //key: the day of the tweet kl 00:00:00
      1234123423442: 2,
      1234354534535: 10
   }
}

添加新推文:

db.x.tweets.insert({...}) //simply insert new document with all fields

//for each found link:
var upsert = true;
var toFind =  { url: '...'};
var updateObj = {'$inc': {'totalCount': 1, 'daycounts.12342342': 1 } }; //12342342 is the day of the tweet
db.x.links.update(toFind, updateObj, upsert);

获取按推文数量排序的前十个链接?

db.x.links.find().sort({'totalCount:-1'}).limit(10);

获取特定日期推文最多的链接?

db.x.links.find({'$gt':{'daycount.123413453':0}}).sort({'daycount.123413453':-1}).limit(1); //123413453 is the day you're after

获取推文的链接?

db.x.tweets.find({'links': 'http://lin.k'});

获取十条最新推文?

db.x.tweets.find().sort({'timeTweeted': -1}, -1).limit(10);
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何为 Twitter 文章聚合器设计 MongoDB 架构 的相关文章

随机推荐

  • if (true) 的目的

    我见过一些这样写的代码 if true do something 你为什么要做这样的事情 这个结构有什么特别的地方吗 THanks 几乎任何现代编译器都会对此进行优化 我的猜测是 有人在开发过程中把它放在那里 让他们轻松删除代码块 通过更改
  • 如何防止argv中丢失双引号?

    好吧 我知道我可以这样循环 for int i 1 i lt argc 1 i cout lt lt argv i lt lt endl 但是这样双引号就丢失了 那就是一个字符串 something here 被视为 args 数组的一个元
  • 在绘图表达式中使用变量

    我试图将回归结果 即 R2 放入图表中 但似乎无法弄清楚如何从表达式中调用变量 它粘贴变量名称 这是我的代码 R2Val lt signif summary sMod pre90 r squared 1 2 text 92 4 expres
  • zsh compinit:安装 Homebrew 后,Mac 上出现不安全目录错误消息

    在我的 Mac 上安装 Homebrew 和 Homebrew Cask 后 以管理员身份 用户 ID 为 admin 运行 MacOS 10 12 6 我收到错误消息 zsh compinit insecure directories r
  • 发生整数溢出时无符号和有符号整数的行为差异[关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 从 iOS 7.1 到 iOS 8 发送数据时 BLE 花费太多时间

    我有一个奇怪的问题 我正在开发一个应用程序 我在其中发送20 20 字节的块 一切正常 当我发送字节数据时从 iOS 8 到 iOS 8设备从一个设备传输到另一个设备大约需要 4 5 秒 但我的问题是当我从iOS 7 1 至 iOS 8或者
  • 状态机;为什么只有最后一个状态有效?

    我有一个有 6 个状态 3 个主要状态 的状态机 只有最后一个状态有效 但前 2 个状态无效 共 3 个 只有最后一个状态有效 我发现了问题 当我移除去抖电路时它可以工作 但我需要去抖电路 我从网上得到了去抖电路 如果有人可以提供帮助 我会
  • 使用 RestSharp 将 JSON 数组反序列化为 C# 结构

    我使用 RestSharp 和动态地将不同的 JSON 结构转换为各种 C 结构IRestResponse
  • 使用 IMultiValueConverter 将多个命令参数传递给 viewModel

    我有以下代码
  • Haskell 列表中的连续数字

    我是 haskell 的新手 我正在尝试一些我之前为 java 完成的编码问题 但是下面的问题让我难住了 基本上 这个想法是编写一个接受整数列表 Int 的函数 确定整数列表中是否包含连续的 1 例如 以下内容的输出将是 输入 func 0
  • Xamarin.forms android权限提示不显示

    我正在使用权限插件 https github com jamesmontemagno PermissionsPlugin作者 詹姆斯 蒙特马尼奥 我基本上复制了该示例 但是在请求它的行之后权限未知 甚至没有对话框显示 var status
  • 通过 javascript 访问车把变量

    我正在为 Express js 框架生成一个把手视图 并且需要从单独的 JavaScript 文件内部访问传递给视图的变量 例如 var foo user name 有人有主意吗 帮手 的价值user name如果您想将其包含在 a 中 则
  • Haskell 你好世界,Eclipse IDE

    我在 eclipseFP 和 Haskell 中使用 hello world 时遇到问题 我有以下代码 module Main where main putStr Hello world 当我用它编译时 ghc exe H1 hs o hw
  • 在非时钟信号上使用上升沿是不好的做法吗?还有其他选择吗?

    我正在研究 VHDL 设计并且它可以工作 但是代码非常丑陋 而且我似乎正在尝试围绕语言的设计来实现我的目标 这一事实让我觉得有些事情是错误的 我对 VHDL 还很陌生 但我已经研究该项目的较小部分近一个月了 所以我有了总体想法 然而 这部分
  • 在 Python 中合并具有不同列的 CSV

    我有数百个大型 CSV 文件 我想将它们合并为一个 但是 并非所有 CSV 文件都包含所有列 因此 我需要根据列名称而不是列位置来合并文件 需要明确的是 在合并的 CSV 中 对于来自不包含该单元格列的行的单元格 值应该为空 我无法使用 p
  • DRF 3 - 使用表创建多对多更新/创建序列化器

    我正在尝试在 DRF 3 中创建一个参考应用程序来演示可以创建 更新模型的嵌套序列化器 当尝试创建嵌套模型时 下面的示例代码会带有 之后的 create 参数必须是映射 而不是列表 的炸弹 我也不清楚如何处理 update 因为在某些情况下
  • 如何使用导航组件管理权限请求代码?

    如何使用导航组件管理权限请求代码 I referred too many website stack links none of it worked still showing deprecated Waring 谷歌参考链接 https
  • 使用 google 字体并仅包含 [A-Z] 和 '&'

    有没有办法使用谷歌字体并只加载它 A Z 和 字符 我想这样做是为了减小大小并缩短加载时间 因为我只会使用基本的拉丁数字和字母 如果必须的话 我可以自己托管字体 并且操作字体包是合法的 但不确定是否需要自托管以及如何操作谷歌的字体包 我已指
  • Maven 中的 Scalatest:JUnit 结果

    我在 Microsoft Visual Studio Team Services 中设置了持续集成服务器 我能够构建我的代码并运行我的测试分级测试 但是 我不知道如何以 JUnit 格式输出结果 我见过很多使用 SBT 的人的结果 但没有人
  • 如何为 Twitter 文章聚合器设计 MongoDB 架构

    我是 MongoDB 的新手 作为练习 我正在构建一个从推文中提取链接的应用程序 这个想法是获取某个主题的推文最多的文章 我很难为这个应用程序设计架构 该应用程序收集推文并保存它们 解析推文中的链接 链接与附加信息 标题 摘录等 一起保存