PySpark：saveAsNewAPIHadoopDataset() 可以用作批量加载到 HBase 吗？

2023-12-19

目前，我们使用 saveAsNewAPIHadoopDataset() 通过 Spark RDD (pyspark) 将数据导入到 HBase 表中。

该函数是否通过mapreduce使用HBase批量加载功能？换句话说，直接导入HBase的saveAsNewAPIHadoopDataset()是否相当于使用saveAsNewAPIHadoopFile()将Hfile写入HDFS，然后调用org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles加载到HBase？

以下是 HBase 加载例程的示例片段：

conf = {"hbase.zookeeper.quorum": config.get(gethostname(),'HBaseQuorum'),
        "zookeeper.znode.parent":config.get(gethostname(),'ZKznode'),
        "hbase.mapred.outputtable": table_name,
        "mapreduce.outputformat.class": "org.apache.hadoop.hbase.mapreduce.TableOutputFormat",
        "mapreduce.job.output.key.class": "org.apache.hadoop.hbase.io.ImmutableBytesWritable",
        "mapreduce.job.output.value.class": "org.apache.hadoop.io.Writable"}

keyConv = "org.apache.spark.examples.pythonconverters.StringToImmutableBytesWritableConverter"
valueConv = "org.apache.spark.examples.pythonconverters.StringListToPutConverter"

spark_rdd.saveAsNewAPIHadoopDataset(conf=conf,keyConverter=keyConv,valueConverter=valueConv)

不完全是。RDD.saveAsNewAPIHadoopDataset and RDD.saveAsNewAPIHadoopFile做几乎同样的事情。他们的 API 只是有点不同。每个都提供了不同的“机制与政策”选择。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Hadoop

apachespark

Hbase

bulkloader

PySpark：saveAsNewAPIHadoopDataset() 可以用作批量加载到 HBase 吗？的相关文章

在推送到容器注册表之前如何对构建的映像运行测试？

从 gitlab 文档中可以看出如何使用 kaniko 创建 docker 镜像 build stage build image name gcr io kaniko project executor debug entrypoint sc
如何检索分配给 Django 中的组的所有权限

我正在执行一项任务来检索分配给 Django 中的组的一组权限我可以使用以下代码获取创建的组但无法使用它来获取分配给它们的权限 from django contrib auth models import Group Permissio
计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
在 PhotoImage 下调整图像大小

我需要调整图像大小但我想避免使用 PIL 因为我无法使其在 OS X 下工作不要问我为什么无论如何因为我对 gif pgm ppm 感到满意所以 PhotoImage 类对我来说没问题 photoImg PhotoImage fi
Python 中 time.sleep 和多线程的问题

我对 python 中的 time sleep 函数有疑问我正在运行一个脚本需要等待另一个程序生成 txt 文件虽然这是一台非常旧的机器所以当我休眠 python 脚本时我遇到了其他程序不生成文件的问题除了使用 time sl
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
Python sys.modules 包含尚未导入的模块

我试图了解加载的模块与导入的模块之间的区别如果有的话我正在使用 Python 2 7 3 并且只是从命令行运行 Python 如果我执行 import sys sys modules 我得到一个列表其中包括os 例如文档说sys m
无法在我的程序中使用 matplotlib 函数

我正在 Windows 10 中运行 Anaconda 安装 conda 版本 4 3 8 这是我尝试在 python 命令行中运行的代码 import matplotlib pyplot as plt x 1 2 3 4 y 5 6 7
同一台机器上有多个Python版本？

Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档我可以找到无数的博客文章和答案但我想知道是否有标准官方方法可以做到这一点或者这一切都取决于操作系统我认为它是完全独
Django 1.7 应用程序配置导入错误：没有名为 appname.apps 的模块

我正在尝试按照以下文档为我的一个名为文章的 Django 应用程序设置自定义应用程序配置https docs djangoproject com en dev ref applications https docs djangoproj
我可以在 if 语句中使用“as”机制吗

是否可以使用as in if类似的声明with我们使用的例如 with open tmp foo r as ofile do something with ofile 这是我的代码 def my list rtrn lst True if
如何处理 Tkinter 中的窗口关闭事件？

如何在 Python Tkinter 程序中处理窗口关闭事件用户单击 X 按钮 Tkinter 支持一种称为协议处理程序 http web archive org web 20201111215134 http effbot org tk
无法将matplotlib安装到pycharm

我最近开始使用Python速成课程学习Python编程我陷入困境因为我无法让 matplotlib 在 pycharm 中工作我已经安装了pip 我已经通过命令提示符使用 pip 安装了 matplotlib 现在当我打开 pych
RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 目录 'app/static' 不存在

当我运行 server py 文件时出现错误 File C Users nawin AppData Local Programs Python Python38 lib site packages starlette staticfiles
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
Python matplotlib：将轴标签/图例从粗体更改为常规粗细

我正在尝试制作一些出版质量的图但遇到了一个小问题默认情况下 matplotlib 轴标签和图例条目的权重似乎比轴刻度线重是否有办法强制轴标签图例条目与刻度线的重量相同 import matplotlib pyplot as plt
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
如何在 Qt 中以编程方式制作一条水平线

我想弄清楚如何在 Qt 中制作一条水平线这很容易在设计器中创建但我想以编程方式创建一个我已经做了一些谷歌搜索并查看了 ui 文件中的 xml 但无法弄清楚任何内容 ui 文件中的 xml 如下所示

随机推荐

如何将多个服务映射到一个 Kubernetes Ingress 路径？

如何设置 Kubernetes Ingress 和控制器以基本上执行以下 nginx conf 文件的操作 upstream backend server server1 example com weight 5 server server
如何使用数字索引转换可变 std::tuple 的所有元素？

目前我有一个这样的实现以便使用函数转换元组的所有值bar 它接受元组的每个元素 template
为什么我的可变参数函数可以同时使用 int 和 long long ？

根据这个答案 https stackoverflow com a 40323646 1197719传递给可变参数函数的数字常量始终被视为int如果它们合二为一的话这让我想知道为什么下面的代码适用于两者 int and long long
代码应该简短/简洁吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案在编写数学证明时一个目标是继续压缩证明证明变得更加优雅但不一定更具可读性压缩可以帮助您更好地理解因为您可以删除不必要的字符和冗长的内容
git 提交每个文件的注释

我是 git 新手之前使用过 Perforce SVN source safe 和许多其他源代码控制工具我正在寻找我曾经在 Perforce 中使用的功能我可以在其中构建更改列表我能够将文件添加到更改列表并提供特定于每个文件的注释
如果我在配置类上使用 @ActiveProfiles 注释而不是在定义 bean 的类上使用它，在 Spring 中会发生什么？

我正在学习弹簧芯我对认证和使用有一些疑问profiles into JUnit 测试所以我知道如果我用以下方式注释一个类 Profile stub Repository public class StubAccountRepository
如何使用Android android.provider.MediaStore.ACTION_IMAGE_CAPTURE 拍摄多张照片？

我有以下代码 Uri outputFileUri Uri fromFile new File path image01 jpg camera intent new Intent android provider MediaStore ACT
仅在一个地区更新 iOS 应用程序

是否可以仅在单个区域内将更新推送到 iOS 应用程序我有一个现有的免费应用程序我正在为其开发重大更新我只想在一个地区试点此更新以发现错误并尝试定价然后再将其推广到所有地区这可能吗不这是不可能的您必须为此发布一个新应用程序
Chromedriver 扩展 ID 与 manifest.json 中的键不匹配

我正在使用 selenium webdriver js 和 chromedriver 测试 chrome 扩展我已经能够成功启动 chrome 并安装了扩展程序但扩展程序 ID 是随机生成的而不是与key我的manifest json
尝试通过 AutoConfigureMockMvc 自动配置时集成测试失败

我正在为控制器端点编写一个简单的测试当我执行以下操作时效果很好 SpringBootTest ContextConfiguration classes HomeController class HomeControllerTest cla
如何阻止 RubyMine/IntelliJ 关闭我的缓冲区？

当我打开十个文件并打开另一个文件时 RubyMine 6 3 3 使用 IntelliJ 代码库似乎会悄悄地关闭文件缓冲区如何禁用或更改此限制转到首选项 gt 编辑器 gt 编辑器选项卡在选项卡关闭策略下将选项卡限制设置为
如何使用Jquery如何更改dom元素（Bootstrap）的aria-expanded =“false”部分？

我有以下元素
将 jQuery 图标颜色更改为白色而不是灰色

我在我的 asp net mvc 项目中使用 jQuery 图标通常我使用灰色图标但现在我想要一个白色图标作为我的蓝色按钮见下文这是我使用的代码 editUser button icons primary ui icon penci
Xcode 显示“该文档有 4 个已发现并修复的问题。/多个资源具有相同的名称：groupTableViewBackgroundColor。”警报

如果我打开 Xcode 项目中的一个故事板我会收到此警报文档故事板名称有 4 个问题已被发现并修复这可能是由于 SCM 操作例如合并造成的请保存文档以解决问题多个资源具有相同的名称 groupTableViewBackgr
panda dataframe 评估中的动态列名称

我引用一个数据框如下 Sales是列名 total pd to numeric sales df Sales str replace sum 但我不想Sales为了进行硬编码我想要一个变量来使其动态这是怎么做到的 TIA 您可以使用方括
仅允许在一个视图控制器上自动旋转

在我的项目中我只允许纵向旋转但对于一个ViewController我想也启用景观我正在介绍这个ViewController as ModalViewController 我尝试过使用方法 BOOL shouldAutorotateTo
如何将网络摄像头视频发送到 Amazon AWS EC2 实例

假设我要将网络摄像头捕获的视频流式传输到 Amazon AWS EC2 实例以便在云中进行图像处理一个人会怎样做呢据我所知文件传输的唯一方法是将文件复制到远程主机我不知道从哪里开始将视频流传输到 AWS EC2 谷歌没有为我找到任
测量 Java 应用程序中的 sql 执行时间

有没有一种简单的方法来测量 JDBC 执行的所有 sql 语句的执行时间并将结果打印到输出有些人可能建议我使用 AOP 来做到这一点但我会尽可能避免这种情况还有别的办法吗如果您没有在为您提供数据源的应用程序服务器中运行该应用程序您
为什么postgres用户的目录没有出现在Linux中与其他用户的HOME目录中？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我对 postgreSQL 和 Linux 都是新手我刚刚安装了它发现它创建了自己的用户 postgres 我对此非常确定因为您甚至可以在几乎所
PySpark：saveAsNewAPIHadoopDataset() 可以用作批量加载到 HBase 吗？

目前我们使用 saveAsNewAPIHadoopDataset 通过 Spark RDD pyspark 将数据导入到 HBase 表中该函数是否通过mapreduce使用HBase批量加载功能换句话说直接导入HBase的save

PySpark：saveAsNewAPIHadoopDataset() 可以用作批量加载到 HBase 吗？

PySpark：saveAsNewAPIHadoopDataset() 可以用作批量加载到 HBase 吗？ 的相关文章

随机推荐

热门标签

PySpark：saveAsNewAPIHadoopDataset() 可以用作批量加载到 HBase 吗？的相关文章