如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce?

2024-02-29

有人可以解释 MapReduce 如何与 Cassandra .6 配合使用吗?我已经阅读了字数统计示例,但我不太明白 Cassandra 端与“客户端”端发生的情况。

https://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/ https://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/

例如,假设我正在使用 Python 和 Pycassa,我将如何加载新的 Map Reduce 函数,然后调用它?我的 MapReduce 函数是否必须是安装在 cassandra 服务器上的 java?如果是这样,我如何从 Pycassa 调用它?

还提到 Pig 让这一切变得更容易,但我是一个十足的 Hadoop 菜鸟,所以这并没有真正帮助。

你的答案可以使用 Thrift 或其他什么,我刚刚提到 Pycassa 来表示客户端。我只是想了解 Cassandra 集群中运行的内容与发出请求的实际服务器之间的区别。


据我所知(以及here http://allthingshadoop.com/category/mapreduce/),开发人员编写使用Cassandra作为数据源的MapReduce程序的方式如下。您编写一个常规的 MapReduce 程序(您链接到的示例适用于纯 Java 版本),现在可用的 jar 提供了一个 CustomInputFormat,允许输入源为 Cassandra(而不是默认的 Hadoop)。

如果您正在使用 Pycassa,我想说您运气不好,直到 (1) 该项目的维护者添加了对 MapReduce 的支持,或者 (2) 您将一些 Python 函数放在一起来编写 Java MapReduce 程序并运行它。后者肯定有点麻烦,但可以让你开始工作。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce? 的相关文章

  • 插入特殊字符

    我试图在我的 Cassandra 表中插入特殊字符 但无法插入 无法在带有变音符号的表中插入数据 https stackoverflow com questions 17425262 inserting data in table with
  • Cassandra - 选择而不复制

    假设我创建了一个键空间和表 CREATE KEYSPACE IF NOT EXISTS keyspace rep 0 WITH replication class SimpleStrategy replication factor 0 CR
  • 在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

    我正在编写一个 M R 作业 该作业处理以二进制格式编写的大型时间序列数据文件 如下所示 此处换行以提高可读性 显然 实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
  • 关于 Cassandra 与 MySQL 的一些建议

    几天前我在这里问了一个问题 得到了一些非常好的答案 我正在考虑做一个带有个人资料 个人简介等的facebook风格的网站 并询问我是否应该使用mysql 答案是使用Cassandra 因为好多了 我只是问这是每个人都会建议的 只是我对mys
  • 更改 Hadoop 中的数据节点数量

    如何改变数据节点的数量 即禁用和启用某些数据节点来测试可扩展性 说得更清楚一点 我有4个数据节点 我想一一实验1 2 3 4个数据节点的性能 是否可以只更新名称节点中的从属文件 临时停用节点的正确方法 创建一个 排除文件 这列出了您想要删除
  • 允许在cql中进行过滤、数据建模

    我目前正在使用和研究 cassandra 中的数据建模实践 到目前为止 我知道您需要基于执行的查询进行数据建模 然而 多个select需求使得数据建模变得更加困难或不可能在一张表上处理它 所以 当你无法在1个表上处理这些要求时 你需要插入2
  • Datastax Cassandra Windows 服务

    这可能真的很简单 但真的很烦人 当使用Cassandra BAT文件时 我们可以通过该bat文件中的JAVA OPTS参数设置最小 最大堆大小 我们可以在哪里为 Windows 服务执行此操作 我认为它使用 prunsrv 使用相同的 ba
  • Spark JSON 文本字段到 RDD

    我有一个 cassandra 表 其中有一个名为 snapshot 的文本类型字段 其中包含 JSON 对象 identifier timestamp snapshot 我了解到 为了能够使用 Spark 对该字段进行转换 我需要将该 RD
  • Cassandra 与 ZooKeeper 的事务 - 这有效吗?

    我正在尝试在 ZooKeeper 的帮助下为 Cassandra 实现一个事务系统 由于我认为我在数据库实现方面没有足够的经验 所以我想知道我的想法原则上是否可行 或者是否有任何重大缺陷 以下是步骤的高级描述 识别所有要编辑的行 键 和列
  • 表行为的 cassandra TTL

    假设我在 secondary 1 处插入一列 在 secondary 2 处插入另一列 表的默认 TTL 设置为 10 秒 例如 问题1 data1 和 data2 是否会在 10 秒后被删除 或者 data 1 将在 10 秒后被删除 d
  • 根据统计数据获取cassandra中的数据点

    我正在测试 Cassandra 2 0 作为存储时间序列数据的可能替代品 我制作了一个简单的表并将一些数据转储到其中 CREATE TABLE DataRaw channelId int sampleTime timestamp value
  • 不使用 CPU 时 Cassandra 超时

    我使用 Phantom DSL 和 Datastax Cassandra 驱动程序时遇到 Cassandra 超时 然而 Cassandra 似乎并没有超载 以下是我得到的异常 com datastax driver core except
  • 为什么从 Cassandra CLI 教程中进行剪切和粘贴不起作用?

    盲目跟风http wiki apache org cassandra Cas sandraCli http wiki apache org cassandra CassandraCli 有人可以解释一下吗 aaron mac apache
  • Cassandra .setFetchSize() on 语句不被遵守

    我想在UI上实现分页 所以我这样设置fetchSize boundStatement setFetchSize 20 但 setFetchSize 不被尊重 截至目前 我的表有 400 行 并且所有 400 行均已检索 当我使用检索下一组行
  • Hadoop 超立方体

    嘿 我正在启动一个基于 hadoop 的超立方体 具有灵活的维度数 有人知道这方面现有的方法吗 我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它 另一种方法是Z
  • 谷歌的Dremel是什么?它与 MapReduce 有什么不同?

    谷歌的 Dremel 是此处描述 http research google com pubs pub36632 html Dremel 和 Mapreduce 有什么区别 Dremel http research google com pu
  • Pig Udf 显示结果

    我是 Pig 的新手 我用 Java 编写了一个 udf 并且包含了一个 System out println 其中的声明 我必须知道在 Pig 中运行时该语句在哪里打印 假设你的UDF 扩展了 EvalFunc 您可以使用从返回的 Log
  • 在 Pig 中分组后选择字段

    我可能错过了一些非常微不足道的东西 但我就是无法让它发挥作用 我有一个 电影 对象 包含标题 演员 年份和角色 现在我想要的是获得带有标题的结果 以及包含演员 角色对的嵌套包 如果我只是这样做group movies by title 我最
  • 如何从 Python 中指定运行程序的输入文件?

    我正在编写一个外部脚本 以通过笔记本电脑上的 Python mrjob 模块 而不是在 Amazon Elastic Compute Cloud 或任何大型集群上 运行 mapreduce 作业 我读自mrjob文档 http packag
  • 错误 1066:无法打开别名 - Pig 的迭代器

    刚开始养猪 尝试从文件加载数据并转储它 加载似乎正确 没有抛出任何错误 下面是查询 NYSE 使用 LOAD root Desktop Works NYSE 2000 2001 tsv PigStorage AS 交换 chararray

随机推荐