用于大规模持久化图形的 NoSQL 解决方案

2024-02-26

我迷上了使用 Python 和 NetworkX 来分析图表，随着我了解的越来越多，我想使用越来越多的数据（我猜我正在成为一个数据迷:-)。最终我认为我的 NetworkX 图（存储为字典的字典）将超出我系统上的内存。我知道我可能可以添加更多内存，但我想知道是否有办法将 NetworkX 与 Hbase 或类似的解决方案集成？

我环顾四周，并没有真正找到任何东西，但我也找不到与允许简单 MySQL 后端相关的任何东西。

这可能吗？是否存在允许连接到某种持久存储的东西？

Update

我记得在“初创公司的社交网络分析”中看到过这个主题，作者讨论了其他存储方法（包括 hbase、s3 等），但没有展示如何做到这一点或是否可能。

用于存储图形的容器一般有两种类型：

真实的图数据库： e.g., Neo4J, 阿伽门农, GraphDB, and 快板;这些不仅存储图形，而且还了解图形，因此，例如，您可以查询这些数据库例如，之间的最短路径有多少个节点节点 X 和节点 Y?
静态图容器：Twitter 的 MySQL 适配的 FlockDB 是这里最著名的范例。这些数据库可以存储和检索图表就好了；但要查询图表本身，您必须首先从数据库中检索图形，然后使用库（例如，Python 的优秀的 Networkx）来查询图本身。

我下面讨论的基于 redis 的图形容器属于第二类，尽管显然 redis 也非常适合第一类容器，如下所示redis-graph http://pypi.python.org/pypi/redis_graph/1.0，一个非常小的 python 包，用于在 redis 中实现图形数据库。

redis在这里会工作得很好。

Redis http://www.redis.io是一个适合生产使用的重型、耐用的数据存储，但它也足够简单，可以用于命令行分析。

Redis与其他数据库不同的是，它有多种数据结构类型；我在这里推荐的是hash数据类型。使用此 Redis 数据结构可以让您非常接近地模仿“字典列表”，这是一种用于存储图形的传统模式，其中列表中的每个项目都是一个边字典，键控到这些边所源自的节点。

您需要先安装redis http://www.redis.io和Python客户端。这DeGizmo 博客 http://degizmo.com/2010/03/22/getting-started-redis-and-python/有一个出色的“启动和运行”教程，其中包括一步步两者安装指南。

一旦安装了 redis 及其 python 客户端，启动一个redis服务器，你确实喜欢这样：

cd到您安装 redis 的目录（/usr/local/bin如果您通过以下方式安装，则在 'nix 上进行安装); next
type redis服务器在 shell 提示符下输入

您现在应该在 shell 窗口中看到服务器日志文件

>>> import numpy as NP
>>> import networkx as NX

>>> # start a redis client & connect to the server:
>>> from redis import StrictRedis as redis
>>> r1 = redis(db=1, host="localhost", port=6379)

在下面的代码片段中，我存储了一个四节点图；下面的每一行都调用hmset在redis客户端上并存储一个节点和连接到该节点的边（“0”=>无边，“1”=>边）。（当然，在实践中，您可以在函数中抽象这些重复调用；这里我显示每个调用，因为这样可能更容易理解。）

>>> r1.hmset("n1", {"n1": 0, "n2": 1, "n3": 1, "n4": 1})
      True

>>> r1.hmset("n2", {"n1": 1, "n2": 0, "n3": 0, "n4": 1})
      True

>>> r1.hmset("n3", {"n1": 1, "n2": 0, "n3": 0, "n4": 1})
      True

>>> r1.hmset("n4", {"n1": 0, "n2": 1, "n3": 1, "n4": 1})
      True

>>> # retrieve the edges for a given node:
>>> r1.hgetall("n2")
      {'n1': '1', 'n2': '0', 'n3': '0', 'n4': '1'}

现在该图已被持久化，可以从 Redis DB 中将其作为 NetworkX 图检索。

有很多方法可以做到这一点，下面是这样做的two*脚步*：

将redis数据库中的数据提取到邻接矩阵, 作为 2D NumPy 数组实现；然后
使用 NetworkX 将其直接转换为 NetworkX 图built-in功能：

简化为代码，这两步是：

>>> AM = NP.array([map(int, r1.hgetall(node).values()) for node in r1.keys("*")])
>>> # now convert this adjacency matrix back to a networkx graph:
>>> G = NX.from_numpy_matrix(am)

>>> # verify that G in fact holds the original graph:
>>> type(G)
      <class 'networkx.classes.graph.Graph'>
>>> G.nodes()
      [0, 1, 2, 3]
>>> G.edges()
      [(0, 1), (0, 2), (0, 3), (1, 3), (2, 3), (3, 3)]

当您结束 redis 会话时，您可以从客户端关闭服务器，如下所示：

>>> r1.shutdown()

redis 在关闭之前将数据保存到磁盘，因此这是确保所有写入都被持久化的好方法。

那么redis数据库在哪里呢？它以默认文件名存储在默认位置，即dump.rdb在您的主目录中。

要更改此设置，请编辑redis.conf文件（包含在 redis 源代码发行版中）；转到以以下内容开头的行：

# The filename where to dump the DB
dbfilename dump.rdb

将 dump.rdb 更改为您想要的任何内容，但保留 .rdb 扩展名。

接下来，要更改文件路径，请在 redis.conf 中找到以下行：

# Note that you must specify a directory here, not a file name

下面的行是 redis 数据库的目录位置。对其进行编辑，使其列出您想要的位置。保存您的修订并重命名该文件，但保留 .conf 扩展名。您可以将此配置文件存储在您希望的任何位置，只需在启动 Redis 服务器时在同一行中提供此自定义配置文件的完整路径和名称：

因此，下次启动 Redis 服务器时，必须像这样执行（从 shell 提示符处：

$> cd /usr/local/bin    # or the directory in which you installed redis 

$> redis-server /path/to/redis.conf

最后，Python 包索引 http://pypi.python.org/pypi/redis_graph/1.0列出了专门用于在 Redis 中实现图数据库的包。该包称为redis-graph http://amix.dk/blog/post/19592#redis-graph-Graph-database-for-Python而且我还没用过。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于大规模持久化图形的 NoSQL 解决方案的相关文章

如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
更改 Matplotlib 投影轴的背景颜色

我正在尝试使用 Cartopy 创建一个图形该图形需要在未投影的轴上绘制投影轴这是一个尽可能简单的代码版本它将轴上的内容替换为背景颜色 import matplotlib pyplot as plt import cartopy cr
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
python中有没有一种方法可以将存储在列表中的正则表达式模式列表应用到单个字符串？

我有一个正则表达式模式列表存储在列表类型中我想将其应用于字符串有谁知道一个好方法将列表中的每个正则表达式模式应用于字符串和如果匹配则调用与列表中该模式关联的不同函数如果可能的话我想用 python 来做这件事提前致谢 im
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

mem_fn 到成员对象的函数

我正在摆弄std mem fn并且无法设法将其绑定到结构成员的数据函数更深一层我希望代码能比我描述的更好地显示问题因为我不熟悉这些术语 include
JS一键切换（不是点击两次）-切换元素的默认值

为什么我们需要在这里单击两次 http jsfiddle net xL8hyoye 4 http jsfiddle net xL8hyoye 4 html a href Click here to toggle visibility of
iOS：UIPasteboard setImage：在 iOS6 和/或 Xcode 4.5 上失败

Update 在 Apple 网站上添加了错误 12408800 我正在将一个或多个 UIImage 复制到 UIPasteboard 它一直工作得非常顺利直到我的手机升级到 iOS 6 Xcode 4 5 与 iOS 5 1 OK Xc
boost::asio::co_spawn 不会传播异常

我正在涉足关于 boost asio 的协程并且我对异常处理感到困惑判断通过examples https www boost org doc libs 1 71 0 doc html boost asio example cpp17 c
JupyterLab 的下载文件夹

我想从 Jupyterlab 在谷歌云实例上运行下载一个 pickle 文件的文件夹但我找不到这样做的方法显然下载单个文件是允许的但我的文件夹中有大约 500 个 pickle 文件需要下载因此手动下载需要一些时间正如您在下面
如何知道UILabel中显示的文字？

我有一个UIView含有两个UILabels 以显示字符串首先UILabel有固定的大小如果绳子太长容纳不下UILabel 我想在第一个中显示最大字符数UILabel 并在第二个中显示字符串的其余部分UILabel 但要做到这一点我
Recordset.Edit或Update sql vba语句更新最快的方法？

我最近遇到了vba update语句并且我一直在使用Recordset Edit and Recordset Update不仅编辑我现有的数据而且更新它我想知道两者的区别 recordset update and Update sql
calloc 与 malloc 以及时间效率

我饶有兴趣地阅读了这篇文章C malloc和calloc的区别 https stackoverflow com questions 1538420 c difference between malloc and calloc 我在代码中使用
安装软件包不起作用：权限被拒绝

我正在努力安装 psych 包我开始使用命令install packages psych 开始下载结果如下 Installing package into C Users Username Documents R win library
在 SQL Server 中查询对话中用户的精确匹配

我有一个对话表和一个用户对话表 CONVERSATION Id Subject Type USERCONVERSATION Id UserId ConversationId 我需要根据 UserId 列表执行 SQL 查询因此如果同一个
@Scheduled 中的 Spring 会话范围对象

在 Spring 中我有很多使用如下定义的会话 bean 的代码 Scope value session proxyMode ScopedProxyMode TARGET CLASS 在我的网络应用程序中一切都很好因为会话范围是可用的
自动将 Git 同步到 SVN

Summary 我想要完成的是定期推送bare将 Git 存储库放入 Subversion 中以便其他人可以使用无人值守的脚本来检查它我不需要相反的方向 SVN gt Git 我希望有人能帮助我完成这件事我见过的其他线程非常接近我所需
Flink 日志记录限制：如何将日志记录配置传递给 Flink 作业

我有一个 flink 作业它使用 logback 作为日志记录框架因为日志需要发送到logstash 而 logback 有一个 logstash 附加程序 Logstash logback appender Appender 工作正常
使用 Bicep 在 Azure Blob 存储容器上添加 RBAC 角色

我正在使用 bicep 部署 azure data Lake gen2 存储帐户我想在带有二头肌的容器上分配角色组参见下面的代码但我不断收到错误有人能帮我吗 targetScope resourceGroup param loca
将 R 对象传递给 Rust 程序需要哪些步骤？

R和Rust都可以与C代码交互所以我认为这是很有可能的然而我有点不清楚如何继续我已阅读这些部分来寻找答案 R 扩展系统和外语接口 http cran r project org doc manuals r release R ext
“async defer”一起使用时有什么作用？ [复制]

这个问题在这里已经有答案了我遇到了以下代码
警告 C26812：枚举类型未限定范围。更喜欢枚举类而不是枚举

我很困惑为什么我会收到这个警告我的整个代码中甚至没有枚举 include
为什么 GCC 在此示例中不发出警告

With Wsequence point启用后当发现未定义的行为代码时 GCC 应警告用户例如 b a a GCC 应注意并应报告为未定义行为代码因为 ISO C 未指定求值操作数的加法顺序然而我尝试了语法并尝试了这个 int
Android Camera2 RAW 流媒体

我对 Android 非常陌生正在尝试从相机流式传输原始数据 ImageFormat RAW SENSOR 处理原始数据以交互方式显示处理结果原始数据捕获似乎仅在静态捕获模式下可用它是否正确如果是这样是否可以对 RAW 图像执
用于大规模持久化图形的 NoSQL 解决方案

我迷上了使用 Python 和 NetworkX 来分析图表随着我了解的越来越多我想使用越来越多的数据我猜我正在成为一个数据迷最终我认为我的 NetworkX 图存储为字典的字典将超出我系统上的内存我知道我可能可以添加更多内存

用于大规模持久化图形的 NoSQL 解决方案

Update

用于大规模持久化图形的 NoSQL 解决方案 的相关文章

随机推荐

热门标签

用于大规模持久化图形的 NoSQL 解决方案的相关文章