如何为 Twitter 文章聚合器设计 MongoDB 架构

2024-01-03

我是 MongoDB 的新手，作为练习，我正在构建一个从推文中提取链接的应用程序。这个想法是获取某个主题的推文最多的文章。我很难为这个应用程序设计架构。

该应用程序收集推文并保存它们
解析推文中的链接
链接与附加信息（标题、摘录等）一起保存
一条推文可以包含多个链接
一个链接可以有很多推文

我如何能：

保存这些集合，嵌入文档吗？
获取按推文数量排序的前十个链接？
获取特定日期推文最多的链接？
获取推文的链接？
获取十条最新推文？

我很想就此获得一些意见。

两个一般提示： 1.）不要害怕重复。将相同的数据以不同的格式存储在不同的集合中通常是一个好主意。

2.) 如果你想对东西进行排序和总结，它有助于在任何地方保留计数字段。 mongodb 的原子更新方法与 upsert 命令一起可以轻松统计并向现有文档添加字段。

下面的内容肯定是有缺陷的，因为它是我凭空想出来的。但我认为坏例子总比没有例子好;)

colletion tweets:

{
  tweetid: 123,
  timeTweeted: 123123234,  //exact time in milliseconds
  dayInMillis: 123412343,  //the day of the tweet kl 00:00:00
  text: 'a tweet with a http://lin.k and an http://u.rl',
  links: [
     'http://lin.k',
     'http://u.rl' 
  ],
  linkCount: 2
}

collection links: 

{
   url: 'http://lin.k'
   totalCount: 17,
   daycounts: {
      1232345543354: 5, //key: the day of the tweet kl 00:00:00
      1234123423442: 2,
      1234354534535: 10
   }
}

添加新推文：

db.x.tweets.insert({...}) //simply insert new document with all fields

//for each found link:
var upsert = true;
var toFind =  { url: '...'};
var updateObj = {'$inc': {'totalCount': 1, 'daycounts.12342342': 1 } }; //12342342 is the day of the tweet
db.x.links.update(toFind, updateObj, upsert);

获取按推文数量排序的前十个链接？

db.x.links.find().sort({'totalCount:-1'}).limit(10);

获取特定日期推文最多的链接？

db.x.links.find({'$gt':{'daycount.123413453':0}}).sort({'daycount.123413453':-1}).limit(1); //123413453 is the day you're after

获取推文的链接？

db.x.tweets.find({'links': 'http://lin.k'});

获取十条最新推文？

db.x.tweets.find().sort({'timeTweeted': -1}, -1).limit(10);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MongoDB

schema

如何为 Twitter 文章聚合器设计 MongoDB 架构的相关文章

OperationFailure：在 MongoEngine/PyMongo 中线程化时出现数据库错误

我有一个函数可以从网站读取数据对其进行处理然后将其加载到 MongoDB 中当我在没有线程的情况下运行它时它工作正常但是一旦我设置了只调用这个函数的 celery 任务我经常会收到以下错误 OperationFailure 数据
将MongoDb atlas数据库导出到本机Mongo compass

我在 Atlas 中有一个名为 test 的远程数据库我想将集合名称 image table 下载为 JSON 文件在 Mac 终端中 mongoexport db test collection image table image j
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
是否可以从 MongoDB 查询返回计算字段？

在 SQL 中我可以做类似的事情 SELECT myNum myNum 1 as increment FROM myTable 有效地执行任意数学和其他函数并将它们作为结果中的字段返回 MongoDB 也可以做同样的事情吗 db test
Mongoose - 查询从多个集合中获取数据

我想要获取猫鼬的查询在 Node js 应用程序中如下所述输出 user js comment js 和 post js 是我使用的模型文件 user js var mongoose require mongoose var Schema
在 Mongoose 中保存对象后如何获取 objectID？

var n new Chat n name chat room n save function console log THE OBJECT ID that I just saved 我想 console log 我刚刚保存的对象的对象 I
使用 Mongoid 将整个模型设为只读

我看到 Mongoid 支持只读属性有没有办法将整个文档或整个集合模型类标记为只读您可以访问fields类属性并将哈希的键映射到attr readonly 例如 class Model include Mongoid Document
MEAN 堆栈文件上传

我最近开始使用 MEAN Stack 进行编程目前正在实现某种社交网络一直使用 MEAN io 框架来做到这一点我现在的主要问题是让文件上传正常工作因为我想做的是将文件从表单接收到 AngularJS 控制器中并将其与更多信息一起
如何统计MONGODB中所有唯一值？ [复制]

这个问题在这里已经有答案了 date 2017 09 04 description DD from my employer1 amount 1000 33 date 2017 09 06 description DD from my emp
NodeJS、Mongoose：如何使用 mongoose 获取相关数据

我有 2 个集合它们是一对多的关系如何使用猫鼬获取相关数据作为嵌套文档我有 2 个模式它们是这样相关的 var userSchema mongoose Schema name String age Number var postSc
如何在猫鼬中获得多个结果并将其合并为一个响应

在 API 路由调用中我希望有 3 个 mongoose 查询然后组合结果以形成响应 json Query student countDocuments then stundentNumber gt return stundentNu
为什么 mongo 的状态会抛出异常（code = exited，status = 48）？

我在使用 mongo 时遇到了极其缓慢的情况早些时候当我输入 sudo systemctl status mongodb mongo 时我出现在线并且呈绿色现在几天后他开始抛弃我 mongodb service High perfo
Node js POST请求错误错误[ERR_HTTP_HEADERS_SENT]：发送到客户端后无法设置标头

我使用 Node JS Express 和 Mongo DB 开发了 REST 服务我已经定义了一个 POST 请求来将用户添加到数据库表中当我尝试在本地主机上 POSTMAN 的 REST 服务时他会工作并将用户添加到表中但节点
过滤$lookup结果

我有 2 个集合带有示例文档 reports id R1 type xyz 报告文件 id F1 reportid R1 time ISODate 2016 06 13T14 20 25 812Z id F14 reportid R1 t
使用 MongoDB PHP 驱动程序时的安全问题

我有在 MYSQL 上保护 sql 注入的经验但是在使用 php 驱动程序的 MongoDB 上我应该注意什么在大多数页面中我通过 GET POST 和搜索插入系统获取数据我通过 UDID 其他字段进行搜索并且可以插入任何字符串
mongoose 查询：通过 id 在数组中查找对象

我怎样才能在此 Schema 中通过 id 找到图像我有用户的 id 和我正在寻找的图像的 id 执行此操作的最佳方法是什么在这种情况下所有图像是否具有不同的 id 或者它们是否可以具有相同的 id 因为它们不属于同一用户我的架构如
Spring boot 2.0.5.RELEASE和mongo 4.0连接问题

我正在关注使用 MongoDB 访问数据教程春季网站 https spring io guides gs accessing data mongodb 我将 Mongo DB 服务器版本 4 安装为服务当我使用客户端连接到它时它的身份验证
如何在Spring Boot中初始化一次MongoClient并使用它的方法？

您好我正在尝试导出MongoClient在 Spring Boot 中成功连接后我尝试在其他文件中使用它这样我就不必每次需要在 MongoDB 数据库中进行更改时都调用该连接连接非常简单但目标是将应用程序连接到我的数据库一次然后
MongoDb 如何按月和年聚合

我是 mongodb 新手正在尝试学习 MongoDB 查询 id ObjectId 59815d4704ca1760a45957ca userEmail email protected cdn cgi l email protectio
仅使用 find 方法查询 MongoDB 中的对象数组

查看以下文档contactsMongoDB 3 4 上的集合 id ObjectId 58f045526320ef24fc61fdb2 name John Doe tags name tagA created at ISODate 2017

随机推荐

if (true) 的目的

我见过一些这样写的代码 if true do something 你为什么要做这样的事情这个结构有什么特别的地方吗 THanks 几乎任何现代编译器都会对此进行优化我的猜测是有人在开发过程中把它放在那里让他们轻松删除代码块通过更改
如何防止argv中丢失双引号？

好吧我知道我可以这样循环 for int i 1 i lt argc 1 i cout lt lt argv i lt lt endl 但是这样双引号就丢失了那就是一个字符串 something here 被视为 args 数组的一个元
在绘图表达式中使用变量

我试图将回归结果即 R2 放入图表中但似乎无法弄清楚如何从表达式中调用变量它粘贴变量名称这是我的代码 R2Val lt signif summary sMod pre90 r squared 1 2 text 92 4 expres
zsh compinit：安装 Homebrew 后，Mac 上出现不安全目录错误消息

在我的 Mac 上安装 Homebrew 和 Homebrew Cask 后以管理员身份用户 ID 为 admin 运行 MacOS 10 12 6 我收到错误消息 zsh compinit insecure directories r
发生整数溢出时无符号和有符号整数的行为差异[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
从 iOS 7.1 到 iOS 8 发送数据时 BLE 花费太多时间

我有一个奇怪的问题我正在开发一个应用程序我在其中发送20 20 字节的块一切正常当我发送字节数据时从 iOS 8 到 iOS 8设备从一个设备传输到另一个设备大约需要 4 5 秒但我的问题是当我从iOS 7 1 至 iOS 8或者
状态机；为什么只有最后一个状态有效？

我有一个有 6 个状态 3 个主要状态的状态机只有最后一个状态有效但前 2 个状态无效共 3 个只有最后一个状态有效我发现了问题当我移除去抖电路时它可以工作但我需要去抖电路我从网上得到了去抖电路如果有人可以提供帮助我会
使用 RestSharp 将 JSON 数组反序列化为 C# 结构

我使用 RestSharp 和动态地将不同的 JSON 结构转换为各种 C 结构IRestResponse
使用 IMultiValueConverter 将多个命令参数传递给 viewModel

我有以下代码
Haskell 列表中的连续数字

我是 haskell 的新手我正在尝试一些我之前为 java 完成的编码问题但是下面的问题让我难住了基本上这个想法是编写一个接受整数列表 Int 的函数确定整数列表中是否包含连续的 1 例如以下内容的输出将是输入 func 0
Xamarin.forms android权限提示不显示

我正在使用权限插件 https github com jamesmontemagno PermissionsPlugin作者詹姆斯蒙特马尼奥我基本上复制了该示例但是在请求它的行之后权限未知甚至没有对话框显示 var status
通过 javascript 访问车把变量

我正在为 Express js 框架生成一个把手视图并且需要从单独的 JavaScript 文件内部访问传递给视图的变量例如 var foo user name 有人有主意吗帮手的价值user name如果您想将其包含在 a 中则
Haskell 你好世界，Eclipse IDE

我在 eclipseFP 和 Haskell 中使用 hello world 时遇到问题我有以下代码 module Main where main putStr Hello world 当我用它编译时 ghc exe H1 hs o hw
在非时钟信号上使用上升沿是不好的做法吗？还有其他选择吗？

我正在研究 VHDL 设计并且它可以工作但是代码非常丑陋而且我似乎正在尝试围绕语言的设计来实现我的目标这一事实让我觉得有些事情是错误的我对 VHDL 还很陌生但我已经研究该项目的较小部分近一个月了所以我有了总体想法然而这部分
在 Python 中合并具有不同列的 CSV

我有数百个大型 CSV 文件我想将它们合并为一个但是并非所有 CSV 文件都包含所有列因此我需要根据列名称而不是列位置来合并文件需要明确的是在合并的 CSV 中对于来自不包含该单元格列的行的单元格值应该为空我无法使用 p
DRF 3 - 使用表创建多对多更新/创建序列化器

我正在尝试在 DRF 3 中创建一个参考应用程序来演示可以创建更新模型的嵌套序列化器当尝试创建嵌套模型时下面的示例代码会带有之后的 create 参数必须是映射而不是列表的炸弹我也不清楚如何处理 update 因为在某些情况下
如何使用导航组件管理权限请求代码？

如何使用导航组件管理权限请求代码 I referred too many website stack links none of it worked still showing deprecated Waring 谷歌参考链接 https
使用 google 字体并仅包含 [A-Z] 和 '&'

有没有办法使用谷歌字体并只加载它 A Z 和字符我想这样做是为了减小大小并缩短加载时间因为我只会使用基本的拉丁数字和字母如果必须的话我可以自己托管字体并且操作字体包是合法的但不确定是否需要自托管以及如何操作谷歌的字体包我已指
Maven 中的 Scalatest：JUnit 结果

我在 Microsoft Visual Studio Team Services 中设置了持续集成服务器我能够构建我的代码并运行我的测试分级测试但是我不知道如何以 JUnit 格式输出结果我见过很多使用 SBT 的人的结果但没有人
如何为 Twitter 文章聚合器设计 MongoDB 架构

我是 MongoDB 的新手作为练习我正在构建一个从推文中提取链接的应用程序这个想法是获取某个主题的推文最多的文章我很难为这个应用程序设计架构该应用程序收集推文并保存它们解析推文中的链接链接与附加信息标题摘录等一起保存

如何为 Twitter 文章聚合器设计 MongoDB 架构

如何为 Twitter 文章聚合器设计 MongoDB 架构 的相关文章

随机推荐

热门标签

如何为 Twitter 文章聚合器设计 MongoDB 架构的相关文章