我试图通过使用 py2neo python 模块 (py2neo.cypher.execute) 执行 cypher 命令,将大量节点(~500,000)插入到(非嵌入式)neo4j 数据库中。最终我需要消除对 py2neo 的依赖,但我目前正在使用它,直到我了解有关 cypher 和 neo4j 的更多信息。
我有两个节点类型A和B,并且绝大多数节点都是A类型。r1和r2有两种可能的关系,例如A-[r1]-A和A-[r2]-B。 A 类型的每个节点将有 0 - 100 个 r1 关系,B 类型的每个节点将有 1 - 5000 个 r2 关系。
目前我正在通过构建大型 CREATE 语句来插入节点。例如我可能有一个声明
CREATE (:A {uid:1, attr:5})-[:r1]-(:A {uid:2, attr:5})-[:r1]-...
其中...可能是另外 5000 个左右的节点和关系,在图中形成线性链。这工作正常,但速度相当慢。我还使用索引这些节点
CREATE INDEX ON :A(uid)
添加所有 A 类型节点后,我再次使用 CREATE 语句添加 B 类型节点。最后,我尝试使用类似的语句添加 r2 关系
MATCH c:B, m:A where c.uid=1 AND (m.uid=2 OR m.uid=5 OR ...)
CREATE (m)-[:r2]->(c)
其中...可以代表几千个 OR 语句。这看起来真的很慢,每秒只添加几个关系。
那么,有更好的方法吗?我在这里完全偏离轨道了吗?我在看这个问题 https://stackoverflow.com/questions/12643662/fastest-way-to-perform-bulk-add-insert-in-neo4j-with-python但这并没有解释如何使用 cypher 来有效地加载节点。我看到的其他所有内容似乎都使用 java,但没有显示可以使用实际的密码查询。