有人可以解释 MapReduce 如何与 Cassandra .6 配合使用吗?我已经阅读了字数统计示例,但我不太明白 Cassandra 端与“客户端”端发生的情况。
https://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/ https://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/
例如,假设我正在使用 Python 和 Pycassa,我将如何加载新的 Map Reduce 函数,然后调用它?我的 MapReduce 函数是否必须是安装在 cassandra 服务器上的 java?如果是这样,我如何从 Pycassa 调用它?
还提到 Pig 让这一切变得更容易,但我是一个十足的 Hadoop 菜鸟,所以这并没有真正帮助。
你的答案可以使用 Thrift 或其他什么,我刚刚提到 Pycassa 来表示客户端。我只是想了解 Cassandra 集群中运行的内容与发出请求的实际服务器之间的区别。
据我所知(以及here http://allthingshadoop.com/category/mapreduce/),开发人员编写使用Cassandra作为数据源的MapReduce程序的方式如下。您编写一个常规的 MapReduce 程序(您链接到的示例适用于纯 Java 版本),现在可用的 jar 提供了一个 CustomInputFormat,允许输入源为 Cassandra(而不是默认的 Hadoop)。
如果您正在使用 Pycassa,我想说您运气不好,直到 (1) 该项目的维护者添加了对 MapReduce 的支持,或者 (2) 您将一些 Python 函数放在一起来编写 Java MapReduce 程序并运行它。后者肯定有点麻烦,但可以让你开始工作。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)