Pig、Cassandra 和 DataStax 拆分控制

2023-12-14

我一直在使用 Pig 和我的 Cassandra 数据来完成各种令人惊奇的分组壮举，而这些壮举几乎不可能用命令式的方式编写。我正在使用 DataStax 的 Hadoop 和 Cassandra 集成，我不得不说它令人印象深刻。向那些家伙致敬！

我有一个非常小的沙箱集群（2 个节点），我正在其中对该系统进行一些测试。我有一个 CQL 表，其中有大约 53M 行（每个大约 350 字节），我注意到 Mapper 之后需要很长时间来处理这些 53M 行。我开始查看日志，发现地图反复溢出（我看到映射器有 177 次溢出），我认为这是问题的一部分。

CassandraInputFormat 和 JobConfig 的组合仅创建一个映射器，因此该映射器必须从表中读取 100% 的行。我称之为反平行 :)

现在，这张图中有很多齿轮在工作，包括：

2个物理节点
hadoop 节点位于“Analytics”DC（默认配置）中，但物理上位于同一机架中。
我可以使用 LOCAL_QUORUM 查看作业

谁能指出我如何让 Pig 创建更多输入的方向Splits这样我就可以运行更多映射器？我有23个槽位；一直只用一个似乎很遗憾。

或者，我完全疯了，不明白这个问题吗？我欢迎这两种答案！

你应该设置pig.noSplitCombination = true。您可以在三个地方之一执行此操作。

调用脚本时：

dse pig -Dpig.noSplitCombination=true /path/to/script.pig

在 Pig 脚本本身中：

SET pig.noSplitCombination true
table = LOAD 'cfs://ks/cf' USING CqlStorage();

或永久在/etc/dse/pig/pig.properties。取消注释：

pig.noSplitCombination=true

否则，Pig 可能会将您的总输入路径（组合）设置为处理： 1.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pig、Cassandra 和 DataStax 拆分控制的相关文章

逃离 Pig 中的美元符号？

这在 0 9 2 中不是问题但在 0 10 中当我尝试访问地图中带有美元符号的键时我会遇到没有定义变量的错误具体来说 blah FOREACH meh GENERATE source json post id id AS post
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中
卡桑德拉主键。整数与 varchar 的性能影响

在Cassandra中如果主键是varchar而不是int或bigint 是否会有性能损失我有 id 作为主键我不会对此做任何数学运算我使用 id 只是为了插入检索比较我想将其更改为字符串以满足我的要求之一性能会下降吗不会有
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
Cassandra修复导致节点超时

我们使用具有 5 个节点的 Cassandra 3 10 1 集群每个节点有 8 个核心和 23Gi 内存全部位于同一个 DC 中复制因子 2 一致性级别 2 最近在大约每周进行一次的计划修复期间来自一个节点的查询出现多次超时在
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
为什么 Cassandra 客户端在生产中没有 epoll 时会失败？ [复制]

这个问题在这里已经有答案了当我在本地运行服务时我收到一条警告指出 epoll 不可用因此它使用 NIO 很公平当我将其部署到 Kubernetes 中时我得到了以下信息这导致服务无法运行 2017 03 29T19 09 22
适用于 AWS 区域的 Cassandra Ec2MultiRegionSnitch 或 GossipingPropertyFileSnitch

我们在美国 AWS 区域有 3 个 Cassandra 节点在新加坡 AWS 区域有 3 个节点如果我必须构建多数据中心我们是否必须使用 Ec2MultiRegionSnitch 或者我们可以使用 GossipingPropertyF
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
将 Datastax Enterprise Cassandra 迁移到 Apache Cassandra

我们目前使用的是 DSE 4 8 和 5 12 我们想迁移到 apache cassandra 因为我们不使用 Spark 或搜索所以想节省一些钱迁移到 apache 这可以在不停机的情况下实现吗我看到 sstableloader 以其
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie

随机推荐

检测 NSNumber 是否为零、nil 或 0

我的核心数据中有一个变量我想检测为零空或其他没有好的值例如 222 或 333 的情况这应该是微不足道的但我正在陷入 Objective C 的语法以下代码是not在职的 if item id nil item id 0 do
Flot 条形图将条形与 X 轴标签对齐

您好我正在尝试绘制包含 31 天数据的条形图然而当我绘制它时当我将条形图设置为时每个数据的标签并不直接位于其条形图下方的中心 align center 第一个小节和最后一个小节被切成两半这是jsfiddle http jsfid
是否可以通过编辑 CSS 文件在 Bootstrap 4 中设置自定义断点？

在我在这里完全被火焰击落之前除了我的做法如下之外我想不出任何其他方式来措辞或表达这个问题我想在 Bootstrap 4 中为 1366px 和 1920px 设置 2 个额外的断点因为 Bootstrap 的 xl 非常有限只有
在滚动条上覆盖 div

我不想向下滚动页面来查看一堆 div 而是希望它们在滚动时叠加在同一个位置一个叠在下一个上面因此您会向下滚动但页面不会向下滚动相反下一个 div 将覆盖第一个 div 依此类推不知道该怎么做这是我所拥有的 UPDATE 这是
OpenGL 坐标系不在 -1 到 1

我正在用 OpenGl 和 C 创建一个基本游戏并希望当玩家到达屏幕边缘时他们无法再移动我无法确定屏幕边缘在哪里我知道Windows通常有一个介于1和 1之间的系统但我的似乎更像是0 63到 0 63 玩家在屏幕上显示为一个方框具
Ionic - 如何以编程方式设置项目的文本颜色？

在 Ionic 3 中如何以编程方式设置项目的文本颜色例如单击列表项将更改切换列表项的颜色
在 R 脚本中将代码拆分为多行

我想将 R 脚本中的一行拆分为多行因为它太长我怎么做具体来说我有一行诸如 setwd a very long path here that goes beyond 80 characters and then some more 是
IEqualityComparer 上不会调用 Equals 和 GetHashCode

我正在比较两个List
测试指针是否为空的最有效方法是什么？

测试指针无效的两种方法之间哪种最有效 if pointer NULL or if pointer MyObject p Solution 1 if p Do something Solution 2 if p NULL Do somethi
如何强制 cmake 在编译期间包含“-pthread”选项？

我知道有类似的东西find package Threads 但它似乎没有什么区别至少其本身现在我正在使用SET CMAKE C FLAGS CMAKE C FLAGS pthread 但对我来说这看起来不是一个正确的解决方案 CMake
iPhone 上的谷歌地图异常

我正在尝试将谷歌地图添加到我的iPhone应用程序中我按照谷歌在此处所说的进行操作https developers google com maps documentation ios start getting the google ma
Excel 与 OneDrive 的全名属性

如果我想在保存后使用打开的 Workbook 对象获取 Excel 文件的全名但该文件已同步到 OneDrive 我会得到一个 https 地址而不是本地地址其他程序无法解释该地址如何获取这样的文件的本地文件名 Example 将文
open_basedir 限制生效文件不在允许的路径内

Warning is dir function is dir open basedir restriction in effect File is not within the allowed path s home futbol data
JS window.onload 用法与文档

window onload从我的阅读看来它可以与document onload但我的经验表明这是不正确的我继承了一个 JS 脚本但我不知道如何纠正它我希望 JS 在 DOM 加载后执行而不是在所有资源加载后执行我怎样才能做到这一
eras light itc 的 CSS 代码

谁能给出 eras light ITC 字体的css编码我无法得到它编码是 para quote padding right 30px font family sans serif font weight 100 我想要eras lig
jQuery：$().click(fn) 与 $().bind('click',fn);

当使用 jQuery 连接事件处理程序时使用 click 方法有什么区别 click fn 与使用绑定方法相比 bind click fn 除了绑定的可选数据参数之外对于它的价值从jQuery 源代码 jQuery each blur
PHPMailer 收件人地址上的字符 ñ

当我尝试将电子邮件发送到包含字母的收件人地址时我在 phpmailer 上收到下一个错误例如致命错误未捕获异常 phpmailerException 并带有消息无效地址 lauro mu 电子邮件受保护我知道它说这是一个无效地
我可以通过任何方式检测驱动程序签名策略状态吗？

我有一个修改过的驱动程序并且必须在禁用驱动程序签名时安装因此我想检测此状态以提醒用户重新启动到安全模式我试过这个命令 Bcdedit exe set TESTSIGNING OFF 但是失败并提示设置元素数据时发生错误该值受安全启
Django 和 HTML 数组

我有一个包含以下输入的表单
Pig、Cassandra 和 DataStax 拆分控制

我一直在使用 Pig 和我的 Cassandra 数据来完成各种令人惊奇的分组壮举而这些壮举几乎不可能用命令式的方式编写我正在使用 DataStax 的 Hadoop 和 Cassandra 集成我不得不说它令人印象深刻向那些家伙致

Pig、Cassandra 和 DataStax 拆分控制

Pig、Cassandra 和 DataStax 拆分控制 的相关文章

随机推荐

热门标签

Pig、Cassandra 和 DataStax 拆分控制的相关文章