有人可以概述一下可用的各种 Hadoop 发行版之间的各种差异吗:
-
Cloudera - http://www.cloudera.com/hadoop http://www.cloudera.com/hadoop
-
Yahoo - http://developer.yahoo.net/blogs/hadoop/ http://developer.yahoo.net/blogs/hadoop/
使用 Apache Hadoop 发行版作为基准。
有没有好理由在标准 Apache Hadoop 发行版上使用这些发行版之一?
免责声明:今年夏天我在 Cloudera 实习(但我最好的一些朋友在雅虎!:-))
Yahoo 发行版是 Hadoop 20 的一个版本,他们在其集群的某些子集上运行(运行?)。它包括一组用于稳定性、错误修复等的补丁。它是一个源代码版本;它没有管理员友好的功能,如 rpm 或 debian 软件包等。
Cloudera 发行版以 rpm 和 deb 形式打包(源代码也可用)。这意味着您可以通过标准方法等获取更新。它还包括稳定性和错误修复补丁。它是不断维护的(并不是说雅虎不是——我想人们可以去 github 上检查他们上次更新它的时间)。它还封装了 Pig 和 Hive。
Cloudera 的 Hadoop 20 发行版处于测试阶段,18 被认为是稳定的(有关更多信息,请访问Cloudera 博客 http://www.cloudera.com/blog/2009/09/10/cdh2-clouderas-distribution-for-hadoop-2/)。 18版本还包含Hive和Pig的包;对于 20,您必须自己构建它们(Pig 或 Hive 还没有支持 20 的官方版本,尽管存在补丁)。 Cloudera 和 Yahoo 版本 20 之间很可能存在重大重叠;两者都提供清单,因此您可以检查。 Cloudera 发行版的最新文档位于http://archive.cloudera.com http://archive.cloudera.com
雅虎不为其分发提供支持;他们将修补版本作为服务提供给社区,因此感兴趣的人可以构建雅虎内部运行的内容。考虑到 Yahoo 集群的规模,这是一个重大贡献,特别是如果您不是一直遵循 JIRA 的 Hadoop 开发人员。 Cloudera 在商业上支持他们的发行版,并通过 Hadoop 邮件列表提供一些社区支持,对于发行版特定的问题,在他们的 GetSatisfaction 页面上提供。
两者与普通的 Apache 发行版有很大不同,因为它们在版本之间进行修补(cloudera 版本 20 有 60 多个补丁!)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)