如何使用 Spark 处理一系列 hbase 行？

2024-03-19

我正在尝试使用 HBase 作为 Spark 的数据源。因此，第一步是从 HBase 表创建 RDD。由于 Spark 使用 hadoop 输入格式，我可以找到一种通过创建 rdd 来使用所有行的方法http://www.vidyasource.com/blog/Programming/Scala/Java/Data/Hadoop/Analytics/2014/01/25/lighting-a-spark-with-hbase http://www.vidyasource.com/blog/Programming/Scala/Java/Data/Hadoop/Analytics/2014/01/25/lighting-a-spark-with-hbase但是我们如何为范围扫描创建 RDD 呢？

欢迎所有建议。

以下是在 Spark 中使用 Scan 的示例：

import java.io.{DataOutputStream, ByteArrayOutputStream}
import java.lang.String
import org.apache.hadoop.hbase.client.Scan
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Base64

def convertScanToString(scan: Scan): String = {
  val out: ByteArrayOutputStream = new ByteArrayOutputStream
  val dos: DataOutputStream = new DataOutputStream(out)
  scan.write(dos)
  Base64.encodeBytes(out.toByteArray)
}

val conf = HBaseConfiguration.create()
val scan = new Scan()
scan.setCaching(500)
scan.setCacheBlocks(false)
conf.set(TableInputFormat.INPUT_TABLE, "table_name")
conf.set(TableInputFormat.SCAN, convertScanToString(scan))
val rdd = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result])
rdd.count

您需要将相关库添加到 Spark 类路径并确保它们与您的 Spark 兼容。温馨提示：可以使用hbase classpath找到他们。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Hadoop

Bigdata

apachespark

如何使用 Spark 处理一系列 hbase 行？的相关文章

在Java中使用命令行编译多个包

您好我一直在使用 IDE 但现在我需要从命令行运行和编译问题是我有多个软件包我试图找到答案但没有任何效果所以我有 src Support java files Me java files Wrapers java files 你知
无法在类对象的 ArrayList 中存储值。（代码已编辑）

这基本上是一个 Java 代码转换器它涉及一个 GUI 让用户输入类类型名称和方法为了存储值我创建了一个类VirtualClass与ArrayList
在哪里可以获得有关 Java FitNesse 和 Slim 的一些教程？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
将过滤器添加到 Eclipse 中的 Project Explorer

我想向 Project Explorer 添加一个新的过滤器以向用户隐藏一些在 Eclipse RCP 应用程序中自动创建的项目到目前为止我已经找到了两个扩展点 org eclipse ui ide resourceFilters 允许
RMI 中的引用传递问题？ [复制]

这个问题在这里已经有答案了有人可以告诉我我错在哪里为什么这个 RMI 聊天应用程序不起作用目标是通过远程对象或序列化对象实现客户端服务器和逻辑之间的解耦 import javax swing import java awt even
如何拦截 REST 端点以接收所有标头？

我当前的代码是 Path login RequestScoped public class LoginResource GET SecurityChecked public Response getUser HeaderParam AUTH
容器中的 JVM 计算处理器错误？

最近我又做了一些研究偶然发现了这一点在向 OpenJDK 团队抱怨之前我想看看是否有其他人观察到这一点或者不同意我的结论因此众所周知 JVM 长期以来忽略了应用于 cgroup 的内存限制众所周知现在从 Java 8 更新某
如何在 Eclipse 中使用其他外部 jar 依赖项创建不可运行/不可执行的 jar

我无法通过 Eclipse 导出向导创建普通的 jar 不可运行不可执行它仅创建 jar 文件但不会导出依赖的 jar 从而在从其他类调用导出的 jar 的方法时出现错误请帮助非常感谢 kurellajunior的建议它是通过使
线程“main”中的异常 java.lang.StackOverflowError

我有一段代码但我无法弄清楚为什么它在线程 main java lang StackOverflowError 中给出异常这是问题 Given a positive integer n prints out the sum of the
如何将 Observable>> 转换为 Observable>

我陷入了如何将以下可观察类型转换转换为我的目标类型的困境我有以下类型的可观察值 Observable
当您在数组列表上调用remove(object o)时，它如何比较对象？

当您在 java 中的数组列表上调用remove object o 时它如何比较对象以找到要删除的正确对象它使用指针吗或者它使用 Comparable 接口来比较对象吗 ArrayList remove 依赖于对象的实现Equal方法
带有 OpenId 提供程序的 Java Spring 安全性

我有一个 spring MVC 应用程序另一个客户端应用程序想要使用 open id connect 访问我的 spring 应用程序如何在服务器端实现开放ID提供商请帮忙 MITREid 连接 OpenID Connect Java
创建正则表达式匹配数组

在Java中我试图将所有正则表达式匹配返回到一个数组但似乎您只能检查模式是否匹配某些内容布尔值如何使用正则表达式匹配来形成与给定字符串中的正则表达式匹配的所有字符串的数组 4城堡的回答 https stackoverflow com
如何在Java媒体框架中学习.wav持续时间？

我正在尝试使用 java 媒体框架将 mov 文件与 wav 文件合并因此我需要知道它们的持续时间我怎样才能做到这一点任何想法将不胜感激您可以使用以下方式了解声音文件的持续时间即 VitalyVal 的第二种方式 import
Hibernate HQL：将对值作为 IN 子句中的参数传递

我面临一个问题如何使用 IN 子句将查询中的成对值的参数传递给 HQL 例如 select id name from ABC where id reg date in x y 并且参数是不同的数据类型string id 和reg date
Android Gradle 同步失败：无法解析配置“：classpath”的所有工件

错误如下 Caused by org gradle api internal artifacts ivyservice DefaultLenientConfiguration ArtifactResolveException Could n
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
Java中的回调接口是什么？

SetObserver 接口的代码片段取自有效的Java 避免过度同步第67条 public interface SetObserver
无法使用 wget 在 CentOS 机器上安装 oracle jdk

我想在CentOS上安装oracle java jdk 8 我无法安装 java jdk 因为当我尝试使用命令安装 java jdk 时 root ADARSH PROD1 wget no cookies no check certific
失败时石英重试

假设我有一个这样配置的触发器

随机推荐

如何将 Wicket 的 DownloadLink 与动态生成的文件一起使用？

DownloadLink https ci apache org projects wicket apidocs 1 4 x org apache wicket markup html link DownloadLink html创建用于下
类与二维数组

在 PHP 中二维数组和类哪个更好用我举了一个例子来说明我的意思 Using a class class someClass public name public height public weight function constr
struct {0} 和 memset 0 有什么区别[重复]

这个问题在这里已经有答案了假设我们有这样的结构 struct A int x int y 有什么区别 A a 0 and A a memset a 0 sizeof A 没有任何最终结果是两者都将结构体成员初始化为0 C99 标准 6
Java 有 IndexSet 和 Range 类吗？

在 Objective C Cocoa 中我们有NSIndexSet类它通过保留范围数组来有效地存储一系列唯一索引例如集合 1 2 30 57 将存储为范围 1 30 和 57 而不是存储为 32 个数字的数组这有助于以简单快速的
表格滚动侦听器

我正在尝试找出滚动表的事件我可以获取左侧参数例如使用 scrollTable offset left 但我无法添加其变化的监听器我想要的就是监视表格左滚动参数的变化并将其应用到另一个 DOM 元素这不是问题我的表格的 HTML 示
C++ lambda回调触发事件

我一直在尝试了解 C 中的回调功能我想要实现的目标如下我有两个对象每个对象都有自己的线程一个物体A有一个指向第二个对象的指针B 参见示例 class A public private std unique ptr b b class
XmlReaderSettings CheckCharacters=false 似乎不起作用

我正在尝试反序列化来自 Rest 服务的 xml 响应我正在实现 IXmlSerialized 因为 xml 相当具体并且我进行自定义序列化响应包含非法 xml 字符但由于我无法修改 xml 所以我必须处理它们解决方案似乎很简单
将一组布尔值转换为数字

这是我将用来获取一组三个布尔值并将其转换为 switch 语句的 int 的代码 int bits 0 bool a true b false c true 101 5 bits bits a lt lt 2 bits bits b lt
python 在测试文件中的模块导入期间模拟函数调用

我正在尝试模拟导入模块时执行的函数调用下面是我遇到的问题的示例 app module py from util import get param PARAM get param param name class sample def ru
ImportError：导入 sampy.TurtleWorld 时没有名为 Tkinter 的模块

我正在使用 Python 3 4 并按照本书进行操作思考 Python 如何像计算机科学家一样思考 http www greenteapress com thinkpython thinkCSpy pdf 我实际上在一周前就发现了这个问题
以编程方式设置网格排序

是否可以在读取数据之前以编程方式设置 KendoUI 数据源的排序参数并避免第二个服务器读取范围是对特定用户交互设置默认排序如何这是我想要做的一个例子因为答案没有切中要害或者也许我不明白事情是如何运作的我定义了一个具有初始排序的
根据单元格中的第一个字符隐藏 Google 电子表格中的行

我正在努力向 Google 电子表格添加功能电子表格从网络导入数据并且我将其全部格式化我的一个专栏是一系列字符串以两种方式之一进行格式化 String 或 String 不带空格基本上是从网络导入斜体我正在尝试编写一个在打开电子
C# - 如何将单个 Excel 工作表从一个工作簿复制到另一个工作簿？

我需要将工作表从一个工作簿复制到另一个工作簿中但我有点卡住了前提是我有一个主工作簿其中存储了许多报告的模板然后我需要创建特定工作表的空白副本并将其添加到新工作簿中这是我到目前为止所拥有的 private void Create
无法在 Swift 中使用缓存生成视频缩略图

一直在努力让它发挥作用我正在生成视频缩略图但它在集合视图中加载非常重我想缓存它们但找不到解决方案这是我正在使用的代码 func previewImageFromVideo url NSURL gt UIImage let asse
将现有项目转换为可定制的框架

我是一名 Android 开发人员我需要创建 IOS 应用程序所以我这样做了应用程序现在已经准备好了但现在我想把它变成一个库框架我的意思是每个客户的不同项目将使用相同的代码库他们将能够更改应用程序的文本字符串和颜色其余的业务
使用 FakeItEasy 模拟方法内的方法

如何模拟伪造在另一个函数中调用的函数的结果通常 Test2 是一个我不喜欢获取真实数据的 DataAccess 方法我喜欢我的单元测试测试的是业务逻辑这就是我现在所拥有的但它根本不起作用 Sum 始终被断言为 5 public i
在具有序列化问题的 Dataframe 上调用 UDF

我在 UDF 博客上查看了一些似乎有效的示例但实际上当我运行它们时它们给出了臭名昭著的任务不可序列化错误我觉得奇怪的是这篇文章已经发表了却没有提到这一点运行 Spark 2 4 代码非常简单 Spark 中一定有什么变化 de
查询 MediaStore：连接缩略图和图像（在 ID 上）

我正在为 Android 开发一个照片库类型的应用程序它最初是作为 Udacity 开发 Android 应用程序的最终项目因此它的整体结构活动内容提供者等应该非常健全并且已被 Udacity Google 接受认证然而
Android中如何混淆字符串？

我想混淆我的 api url 我可以使用 Proguard 吗如果是我该怎么做以及如何在 Proguard 配置文件中添加类来混淆类中存在的方法和变量您现在可以使用新的 gradle 插件库来有效地混淆类中的字符串请在此处查看
如何使用 Spark 处理一系列 hbase 行？

我正在尝试使用 HBase 作为 Spark 的数据源因此第一步是从 HBase 表创建 RDD 由于 Spark 使用 hadoop 输入格式我可以找到一种通过创建 rdd 来使用所有行的方法http www vidyasource

如何使用 Spark 处理一系列 hbase 行？

如何使用 Spark 处理一系列 hbase 行？ 的相关文章

随机推荐

热门标签

如何使用 Spark 处理一系列 hbase 行？的相关文章