使用 Hadoop/MapReduce 查找连接的组件

2024-01-04

我需要为一个巨大的数据集找到连接的组件。（图是无向的）

一个显而易见的选择是 MapReduce。但我是 MapReduce 的新手，我没有足够的时间来学习它并自己编写代码。

我只是想知道是否有任何现有的 API 可以解决这个问题，因为这是社交网络分析中非常常见的问题？

或者至少如果有人知道任何可靠的（经过尝试和测试的）来源，至少我可以自己开始实施？

Thanks

我在博客上为自己讲述了这一点：

http://codingwiththomas.blogspot.de/2011/04/graph-exploration-with-hadoop-mapreduce.html http://codingwiththomas.blogspot.de/2011/04/graph-exploration-with-hadoop-mapreduce.html

但 MapReduce 不太适合这些图形分析。为此，最好使用 BSP（批量同步并行），Apache Hama 在 Hadoop HDFS 之上提供了良好的图形 API。

我在这里用 MapReduce 编写了一个连接组件算法：（Mindist 搜索）

https://github.com/thomasjungblut/tjungblut-graph/tree/master/src/de/jungblut/graph/mapreduce https://github.com/thomasjungblut/tjungblut-graph/tree/master/src/de/jungblut/graph/mapreduce

还可以在此处找到 Apache Hama 的 BSP 版本：

https://github.com/thomasjungblut/tjungblut-graph/blob/master/src/de/jungblut/graph/bsp/MindistSearch.java https://github.com/thomasjungblut/tjungblut-graph/blob/master/src/de/jungblut/graph/bsp/MindistSearch.java

实现并不像 MapReduce 那样困难，而且速度至少快 10 倍。如果您有兴趣，请查看 TRUNK 的最新版本并访问我们的邮件列表。

http://hama.apache.org/ http://hama.apache.org/

http://apache.org/hama/mail-lists.html http://apache.org/hama/mail-lists.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Hadoop/MapReduce 查找连接的组件的相关文章

Facebook Workplace API 身份验证

我正在开发一个与 Facebook 的 Workplace 集成的 Web 应用程序我花了一整天的时间试图弄清楚如何使用 OAUTH 身份验证机制进行成员身份验证由于我拥有应用程序访问令牌我能够获取用于模拟的成员访问令牌但是我如何
GNUPLOT：尝试提高质量

如何提高 gnuplot 的质量看起来这是一个非常低分辨率的图像这是我正在使用的文件的内容 linkage plot set terminal pdf set out linkage pdf set title Distribution
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
如何跳过财务图中的空日期（周末）

ax plot date dates dates highs lows 我目前正在使用此命令来绘制财务高点和低点Matplotlib http en wikipedia org wiki Matplotlib 效果很好但如何删除 x 轴上
如何在matplotlib中部分填充之间，如不同值的不同颜色

I m trying to color the space between the graph line and the x axis The color should be based on the value of the corres
使用 Haskell 绘制图表

是否可以使用 Haskell 绘制一个简单的图表你们中的任何人都可以告诉我该怎么做吗该图应至少包含 3 个点 Haskell 图表 https github com timbod7 haskell chart似乎不错 The wiki
加权图的 BFS 算法 - 寻找最短距离

我看过很多帖子即 post1 https stackoverflow com questions 30409493 using bfs for weighted graphs post2 https cs stackexchange co
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
iOS绘图3D图形库[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在搜索一个可以帮助我绘制 3D 图表的库我想要类似的东西这一页 http www math uri edu bkaskosz fla
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
MongoDB 存储过程等效项

我有一个包含商店列表的大型 CSV 文件其中一个字段是邮政编码我有一个名为 ZipCodes 的独立 MongoDB 数据库它存储任何给定邮政编码的纬度和经度在 SQL Server 中我将执行一个名为 InsertStore 的
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
如何将图数据结构持久化到关系数据库中？

我考虑过创建一个顶点表和一个边表但是在内存中构建图和遍历子图是否需要大量查找我想避免过多的数据库读取还有其他方法可以保存图表吗旁注我听说过 Neo4j 但我的问题实际上是如何在概念上表示标准数据库中的图形不过我对一些 NoSQ
图中使用 K 个反向边的所有最短路径

假设我有一个有向图 G V E 其边的权重为正整数我需要做的是使用最多 K 整数个反向边找到所有顶点之间的最短路径我的意思是如果我们在边 u 处并且只有一条从 v 到 u 的有向边只要我们没有在这条路径上使用 K 个反向边我们
如何在iPhone应用程序中创建折线图？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
boost::graph 算法是否能够使用以前的解决方案更快地解决密切相关的新问题？

我在下图中定义了最大流量问题最初所有四个边缘的容量均为 4 个单位我求从 0 到 3 的最大流量值答案是 8 沿路径 0 gt 1 gt 3 4 个单位沿路径 0 gt 2 gt 3 4 个单位以下代码创建图表并查找最大流量 i
直接来自数据的马尔可夫模型图（makovchain 或 deemod 包？）

我想读取一堆因子数据并从中创建一个可以很好地可视化的转换矩阵我发现了一个非常好的软件包称为 heemod 它与 diagram 一起工作得不错对于我的第一个快速而肮脏的方法我运行了一段 Python 代码来获取矩阵然后使用这个 R
在 X 轴刻度上渲染 HTML

我想在 D3 图表的 x 轴上渲染 HTML 基本上我希望轴上的每个标签都是到数据中另一列的超链接我试过了 x domain data map function d return a href d Name a 但它根本不起作用我得到

随机推荐

使用 Python 3 将 Pig Latin 翻译成英语

正如您将在下面的代码中看到的我已经制作了一个将英语翻译成 Pig Latin 的程序它遵循两个规则如果单词以元音开头则应附加 way 例如 apple 变为 appleway 如果单词以辅音序列开头则该序列应移至末尾以 a 为前
重复上下动画 div

我想要一个使用 jquery 重复上下移动的 div 换句话说 div 从某个位置的顶部开始向下移动然后向上移动并重复此过程从上到下大约有 1 秒的时间间隔再回到顶部大约有 1 秒的时间间隔有slideUp和slideDown以及
发送以 HTML 文件作为正文的电子邮件 (C#)

如何使用 HTML 文件设置 MailMessage 的正文只需设置邮件消息正文格式 http msdn microsoft com en us library system web mail mailmessage bodyformat
Scala 的“With”语句等效吗？

也许是 Scala 学习者的闲思但是在我的修改中我写了以下内容 n child size gt 0 n child filter isInstanceOf Text size 0 n 是 scala xml Node 但这并不重要特
对二维点数组进行排序以找出四个角

您好我有任何大小的二维点的集合通过查找原点之间距离的最小值和最大值我能够找出左上角和右下角点但我无法找出顶部右点和左下点也许你可以使用cv approxPoly 找到二维点集的角点然后您可以通过以下方式按您想要的任何顺序对点进
hibernate用于动态表创建

我是一个 HIBERNATE 初学者因为我需要创建其中包含动态字段的动态表所以我选择使用 hibernate 据我了解创建表需要一个类其中包含类中定义的字段如何根据具有所需字段的表动态生成类我不确定我是否理解这个问题标题是关于
Android使用EGL初始化openGL2.0上下文

我想在Android上用本机代码进行离屏图像处理所以我需要通过EGL在本机代码中创建openGL上下文通过EGL 我们可以创建EGLSurface 我可以看到那里有三个选择 EGL WINDOW BIT EGL PIXMAP BIT E
如何在 Visual Studio 2005/2008 中编译 Flex？

我无法弄清楚这一点我可以从 gnuwin32 下载 flex 2 5 4a 的 win32 二进制文件但我想使用 Visual Studio 2005 构建最新版本 2 5 35 我想我可以在 cygwin 中构建但其中的乐趣在哪里
Django 日志记录旋转文件不起作用

所以我在 Django 日志记录到达时遇到了一些问题maxBytes尺寸基本上当发生这种情况时文件似乎不会旋转并创建新文件有人告诉我这可能与服务器的写入权限有关但我不确定如何正确设置以便 django 在旧日志文件已满时能够创建
如何更改移动布局上的 Bootstrap 3 列顺序？

我正在制作一个带有顶部固定导航栏的响应式布局下面有两列一列用于侧边栏 3 一列用于内容 9 在桌面上看起来像这样 navbar 3 9 When I resize移动navbar被压缩并隐藏然后侧边栏堆叠在内容之上如下所示 navb
在Android中将位图的大小减小到某个指定的像素

我想将我的位图图像尺寸减小到最大 640 像素例如我有尺寸为 1200 x 1200 px 的位图图像如何将其减小到 640px 如果你传递位图width and height然后使用 public Bitmap getResiz
通过 git URL 从 lerna 管理的 monorepo 安装包

我在我的项目中使用纱线我的项目有一个依赖项它恰好是 lerna 维护的较大 monorepo 的子包子包已更新但尚未发布我需要未发布的代码有没有办法通过git url安装lerna的子包 Thanks 如果您的问题是如何通过 g
如何实现记住我功能？ [复制]

这个问题在这里已经有答案了可能的重复为网站实施记住我的最佳方式是什么 https stackoverflow com questions 244882 what is the best way to implement rememb
HttpResponseMessage 内容不会显示 PDF

我创建了一个 Web Api 它返回一个 HttpResponseMessage 其中内容设置为 PDF 文件如果我直接调用 Web Api 它会很好地工作并且 PDF 会在浏览器中呈现 response Content new Str
Spark - 使用不同的数据类型以编程方式创建模式

我有一个由 7 8 个字段组成的数据集这些字段的类型为 String Int 和 Float 我尝试使用以下方法通过编程方法创建架构 val schema StructType header split map column gt Str
Zend框架2访问模型类中的全局配置

我有一个模型类它不扩展任何核心 Zend 模块该模型是从我之前的 Zend Framework 1 应用程序导入的我可以通过将其转换为命名空间来调用它的方法我遇到的问题是在定义的方法中读取全局配置对于控制器我可以使用以下代码访问
R 中的 readHTMLTable 仅从篮球参考页面返回前两个表

我正在尝试从篮球参考网站抓取球队统计网页但当我使用 readHTML 时它只会带回前两个表格我的 R 代码如下所示 url http www basketball reference com leagues NBA 2015 html
使用 GCD 同步 Swift 3 中的属性

我看了今年的WWDCGCD最近谈话我认为有一个代码片段有问题这是关于使用以下方法使属性成为线程安全的调度队列 class MyObject private var internalState Int private let intern
在 for 循环中声明匿名结构，clang 无法编译

在 for 循环中声明匿名结构的代码在 gcc 中使用 std c99 gnu99 工作得很好 for struct int foo int bar i 0 i foo lt 10 i foo 但是当我切换到 clang 时我收到了错误
使用 Hadoop/MapReduce 查找连接的组件

我需要为一个巨大的数据集找到连接的组件图是无向的一个显而易见的选择是 MapReduce 但我是 MapReduce 的新手我没有足够的时间来学习它并自己编写代码我只是想知道是否有任何现有的 API 可以解决这个问题因为这是社交网

使用 Hadoop/MapReduce 查找连接的组件

使用 Hadoop/MapReduce 查找连接的组件 的相关文章

随机推荐

热门标签

使用 Hadoop/MapReduce 查找连接的组件的相关文章