如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？

2024-02-29

有人可以解释 MapReduce 如何与 Cassandra .6 配合使用吗？我已经阅读了字数统计示例，但我不太明白 Cassandra 端与“客户端”端发生的情况。

https://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/ https://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/

例如，假设我正在使用 Python 和 Pycassa，我将如何加载新的 Map Reduce 函数，然后调用它？我的 MapReduce 函数是否必须是安装在 cassandra 服务器上的 java？如果是这样，我如何从 Pycassa 调用它？

还提到 Pig 让这一切变得更容易，但我是一个十足的 Hadoop 菜鸟，所以这并没有真正帮助。

你的答案可以使用 Thrift 或其他什么，我刚刚提到 Pycassa 来表示客户端。我只是想了解 Cassandra 集群中运行的内容与发出请求的实际服务器之间的区别。

据我所知（以及here http://allthingshadoop.com/category/mapreduce/），开发人员编写使用Cassandra作为数据源的MapReduce程序的方式如下。您编写一个常规的 MapReduce 程序（您链接到的示例适用于纯 Java 版本），现在可用的 jar 提供了一个 CustomInputFormat，允许输入源为 Cassandra（而不是默认的 Hadoop）。

如果您正在使用 Pycassa，我想说您运气不好，直到 (1) 该项目的维护者添加了对 MapReduce 的支持，或者 (2) 您将一些 Python 函数放在一起来编写 Java MapReduce 程序并运行它。后者肯定有点麻烦，但可以让你开始工作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？的相关文章

插入特殊字符

我试图在我的 Cassandra 表中插入特殊字符但无法插入无法在带有变音符号的表中插入数据 https stackoverflow com questions 17425262 inserting data in table with
Cassandra - 选择而不复制

假设我创建了一个键空间和表 CREATE KEYSPACE IF NOT EXISTS keyspace rep 0 WITH replication class SimpleStrategy replication factor 0 CR
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
关于 Cassandra 与 MySQL 的一些建议

几天前我在这里问了一个问题得到了一些非常好的答案我正在考虑做一个带有个人资料个人简介等的facebook风格的网站并询问我是否应该使用mysql 答案是使用Cassandra 因为好多了我只是问这是每个人都会建议的只是我对mys
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
允许在cql中进行过滤、数据建模

我目前正在使用和研究 cassandra 中的数据建模实践到目前为止我知道您需要基于执行的查询进行数据建模然而多个select需求使得数据建模变得更加困难或不可能在一张表上处理它所以当你无法在1个表上处理这些要求时你需要插入2
Datastax Cassandra Windows 服务

这可能真的很简单但真的很烦人当使用Cassandra BAT文件时我们可以通过该bat文件中的JAVA OPTS参数设置最小最大堆大小我们可以在哪里为 Windows 服务执行此操作我认为它使用 prunsrv 使用相同的 ba
Spark JSON 文本字段到 RDD

我有一个 cassandra 表其中有一个名为 snapshot 的文本类型字段其中包含 JSON 对象 identifier timestamp snapshot 我了解到为了能够使用 Spark 对该字段进行转换我需要将该 RD
Cassandra 与 ZooKeeper 的事务 - 这有效吗？

我正在尝试在 ZooKeeper 的帮助下为 Cassandra 实现一个事务系统由于我认为我在数据库实现方面没有足够的经验所以我想知道我的想法原则上是否可行或者是否有任何重大缺陷以下是步骤的高级描述识别所有要编辑的行键和列
表行为的 cassandra TTL

假设我在 secondary 1 处插入一列在 secondary 2 处插入另一列表的默认 TTL 设置为 10 秒例如问题1 data1 和 data2 是否会在 10 秒后被删除或者 data 1 将在 10 秒后被删除 d
根据统计数据获取cassandra中的数据点

我正在测试 Cassandra 2 0 作为存储时间序列数据的可能替代品我制作了一个简单的表并将一些数据转储到其中 CREATE TABLE DataRaw channelId int sampleTime timestamp value
不使用 CPU 时 Cassandra 超时

我使用 Phantom DSL 和 Datastax Cassandra 驱动程序时遇到 Cassandra 超时然而 Cassandra 似乎并没有超载以下是我得到的异常 com datastax driver core except
为什么从 Cassandra CLI 教程中进行剪切和粘贴不起作用？

盲目跟风http wiki apache org cassandra Cas sandraCli http wiki apache org cassandra CassandraCli 有人可以解释一下吗 aaron mac apache
Cassandra .setFetchSize() on 语句不被遵守

我想在UI上实现分页所以我这样设置fetchSize boundStatement setFetchSize 20 但 setFetchSize 不被尊重截至目前我的表有 400 行并且所有 400 行均已检索当我使用检索下一组行
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
谷歌的Dremel是什么？它与 MapReduce 有什么不同？

谷歌的 Dremel 是此处描述 http research google com pubs pub36632 html Dremel 和 Mapreduce 有什么区别 Dremel http research google com pu
Pig Udf 显示结果

我是 Pig 的新手我用 Java 编写了一个 udf 并且包含了一个 System out println 其中的声明我必须知道在 Pig 中运行时该语句在哪里打印假设你的UDF 扩展了 EvalFunc 您可以使用从返回的 Log
在 Pig 中分组后选择字段

我可能错过了一些非常微不足道的东西但我就是无法让它发挥作用我有一个电影对象包含标题演员年份和角色现在我想要的是获得带有标题的结果以及包含演员角色对的嵌套包如果我只是这样做group movies by title 我最
如何从 Python 中指定运行程序的输入文件？

我正在编写一个外部脚本以通过笔记本电脑上的 Python mrjob 模块而不是在 Amazon Elastic Compute Cloud 或任何大型集群上运行 mapreduce 作业我读自mrjob文档 http packag
错误 1066：无法打开别名 - Pig 的迭代器

刚开始养猪尝试从文件加载数据并转储它加载似乎正确没有抛出任何错误下面是查询 NYSE 使用 LOAD root Desktop Works NYSE 2000 2001 tsv PigStorage AS 交换 chararray

随机推荐

如何覆盖 Rails 中的路线路径助手？

我的路线是这样定义的 match user id gt user show as gt user 如果由于某种原因传递了 nil ID 我希望路由助手仅返回如果 ID 不为零我希望它返回正常路径如 user 123 或者有没有更好的方
通过 PowerShell 在 Firefox 中打开 URL？

我希望通过 Powershell 脚本在 Firefox 中打开 url 让事情变得有点困难的是 Firefox 不是默认浏览器它是一个便携式 Firefox 版本 Edit 我的便携式 Firefox 安装似乎存在一些问题即使将其设置
文本在空间上改变线条

我有一个列表其中留有一些用于缩进的空间并且还提供了虚线底层但是那display用于此列表的属性不匹配导致文本在找到空格时换行这里有一个Fiddle http jsfiddle net gsamaras cmfL2643 16 T
过滤掉 HTML 标签并解析 python 中的实体

因为正则表达式让我害怕所以我试图找到一种方法来删除所有 HTML 标签并从 Python 中的字符串解析 HTML 实体 Use lxml http lxml de 这是 python 最好的 xml html 库 import lxml
为 Android 应用程序设置 ActionBarSherlock 主题

阅读下面的更新 2 寻找答案我正在尝试在我的应用程序中使用 ActionBarSherlock 我查看了 4 0 0 版本项目 github 仓库 https github com JakeWharton ActionBarSherloc
Flask-SQLAlchemy 超时错误

我的后端配置是乌班图12 04 Python 2 7 烧瓶0 9 Flask SQLAlchemy Postgres 9 2 我收到此错误消息 TimeoutError QueuePool limit of size 5 overflow
如何在代码中使用Python覆盖率

我想从代码内部捕获覆盖范围我尝试了下面的一种但出现错误请参阅以下链接了解覆盖 API https coverage readthedocs io en v4 5 x api html api https coverage readth
为什么我已经安装了 RabbitMQ 却找不到“rabbitmq.config”文件？

我正在运行 Red Hat Enterprise Linux 7 2 我已经安装了 RabbitMQ 并systemctl status rabbitmq server shows rabbitmq server service LSB 启
使用多个实例和背景大小时，Firefox 背景图像闪烁

因此我在页面上有几个共享背景图像的元素我的页面正在使用 bootstrap 并且两个元素都是 3 列宽度的容器每个都有一个背景并通过背景大小包含在第二个元素上我将背景宽度设置为 90 因此它比其他背景稍小在 Firefox 中
如何在 Objective-c 中的应用程序的资源文件夹中保存文件

我正在为 iPhone 开发一个 Objective C 应用程序我的问题是我的应用程序必须保存从网址获取的图像我认为该文件夹是只读的这是我保存图像的代码 void banner NSString path NSData imageD
UITableView：自定义标题标题视图不显示

我想显示一个带有自定义标题标题的表格这table view被附加到一个controller class实现了tableview delegate和数据源协议但不是其子类UIViewController因为该表是要显示在另一个表视图之上的
使用 fread() 选择行和列，就像 read.csv.sql() 那样

I know fread相对较新但它确实提供了很大的性能改进我想知道的是您可以从您正在阅读的文件中选择行和列吗有点像什么read csv sql做我知道使用select的选项fread我们可以选择要读取的列但是如何只读取满足特定
强类型定义[重复]

这个问题在这里已经有答案了有什么方法可以制作类型的完整副本以便可以在模板推导上下文中区分它们举个例子 include
如何在连接表中按条件接收对象

我有桌子Games and Badges他们通过桌子连接BadgesGames t integer badge id t integer game id t boolean shown default false I have Game对象
Xcode - 共享应用程序 - PackageApplication 失败，退出代码 1

我使用 Xcode 4 1 为我的 iPhone 应用程序创建了一个临时发行版目标成功构建并生成了一个存档文件我可以在管理器中看到该文件然后我单击共享这允许我选择 ipa 和我的分发配置文件但是在我点击下一步后管理器崩溃
Spark：按元组/列中的多个值对 RDD 进行排序

所以我有一个RDD如下 RDD String Int String 举个例子 b 1 a a 1 b a 0 b a 0 a 最终结果应该类似于 a 0 a a 0 b a 1 b b 1 a 我该怎么做这样的事情尝试这个 rdd sor
Heroku/GoDaddy：将裸域名发送到 www [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我正在尝试找出如何让我的网站的裸域重定向到 www 域我正在使用 Heroku 并拥有 GoDaddy 的域名由于 Heroku 我的 A 记录已
没有http服务器的Socket.IO？

我目前正在使用 Nodejs 的 Socket IO 在服务器和一些客户端之间共享一些实时信息客户端应该只与服务器通信而不是彼此通信在 Windows 上一切都很好我可以共享信息但当它把东西放到 Linux vps 上时我遇到了
“在负可变长度后行中使用 \G 来限制后行回溯多远”的示例

在很棒的正则表达式模块的 pypi 页面中 https pypi python org pypi regex https pypi python org pypi regex 据说 G 可以在负可变长度后向中使用以限制后向回溯的距离非
如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？

有人可以解释 MapReduce 如何与 Cassandra 6 配合使用吗我已经阅读了字数统计示例但我不太明白 Cassandra 端与客户端端发生的情况 https svn apache org repos asf cassan

如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？

如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？ 的相关文章

随机推荐

热门标签

如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？的相关文章