为行键放置不同值但在 hbase 中放置相同时间戳的解决方案？

2023-11-29

我是 Hbase 的新人。将文本文件中的数据批量加载到 Hbase 时遇到问题。假设我有下表：

Key_id | f1:c1 | f2:c2
row1     'a'     'b'
row1     'x'     'y'

当我解析2条记录并将其同时放入Hbase（相同的时间戳）时，则只有版本{row1 'x' 'y'}更新。解释如下：

当你将数据放入HBase时，需要一个时间戳。时间戳可以由 RegionServer 自动生成，也可以由您提供。给定单元的每个版本的时间戳必须是唯一的，因为时间戳标识版本。例如，要修改单元格的先前版本，您可以发出具有不同数据本身值但具有相同时间戳的 Put。

我正在考虑指定时间戳的想法，但我不知道如何自动设置批量加载的时间戳，它会影响加载性能吗？我需要最快且安全的大数据导入流程。

我尝试解析每条记录并将其放入表中，但是速度非常非常慢...所以另一个问题是：在放入hbase之前应该批量处理多少条记录/数据大小。（我写了一个简单的java程序来放置。它比我使用Importrtsv工具通过命令导入要慢得多。我不知道这个工具的批量有多少大小..）

非常感谢您的建议！

Q1：Hbase 使用时间戳来维护版本。如果您不提供，则采用 hbase 系统默认提供的值。

如果您有这样的要求，您也可以在放置请求中更新自定义时间。它不会影响性能。

Q2：您可以通过两种方式做到这一点。

具有批处理技术的简单 Java 客户端如下所示。
Mapreduce importtsv（批量客户端）

例如：#1 使用批处理技术的简单 Java 客户端。

我使用 hbase 批量列出 100000 条记录的对象来解析 json（类似于您的独立 csv 客户端）

下面是我实现这一目标的代码片段。解析其他格式时也可以做同样的事情）

可能你需要在两个地方调用这个方法

1）批量为100000条记录。

2) 对于您的批次记录少于100000条的处理提醒

  public void addRecord(final ArrayList<Put> puts, final String tableName) throws Exception {
        try {
            final HTable table = new HTable(HBaseConnection.getHBaseConfiguration(), getTable(tableName));
            table.put(puts);
            LOG.info("INSERT record[s] " + puts.size() + " to table " + tableName + " OK.");
        } catch (final Throwable e) {
            e.printStackTrace();
        } finally {
            LOG.info("Processed ---> " + puts.size());
            if (puts != null) {
                puts.clear();
            }
        }
    }

注意：批量大小在内部由以下因素控制hbase.client.write.buffer就像下面在您的配置 xml 之一中一样

<property>
         <name>hbase.client.write.buffer</name>
         <value>20971520</value> // around 2 mb i guess
 </property>

其默认值为 2mb 大小。一旦缓冲区被填满，它将刷新所有实际插入到表中的内容。

此外，mapreduce 客户端或具有批处理功能的独立客户端技术。批处理由上述缓冲区属性控制

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

timestamp

Hbase

versions

bulkload

为行键放置不同值但在 hbase 中放置相同时间戳的解决方案？的相关文章

非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
mysql 如何将 varchar(10) 转换为 TIMESTAMP？

我已将所有日期存储到数据库中varchar 10 现在我想将它们转换为 TIMESTAMP 当我运行sql时 ALTER TABLE demo3 CHANGE date date TIMESTAMP NOT NULL 它提醒 1292 In
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
如何在启用嵌入时间戳和 LTV 的情况下签署 PDF？

我正在尝试签署启用了时间戳和 LTV 的 pdf 以便它在 Adob e Reader 中显示如下在英语中这意味着签名包含嵌入的时间戳和签名启用了 LTV 这是我正在使用的代码 PrivateKey pk get pk from
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
哪些mysql设置影响LOAD DATA INFILE的速度？

让我来介绍一下情况我们尝试将适量的行数大约每天 10 20M 插入到宽度适中的 MyISAM 表中 Field Type Null Key Default Extra blah1 varchar 255 NO PRI blah2 var
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
如何使用准备好的语句在 postgresql 中插入带有时区的时间戳？

我正在尝试使用准备好的语句将一个字符串插入到数据库的带有时区字段的时间戳中其中包括日期时间和时区问题是 Timestamp valueof 函数没有考虑字符串包含的时区因此会导致错误接受的格式是 yyyy m m d d hh m
Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
Cookie 过期时间格式

我从谷歌浏览器的 Cookies 文件和其中的一列创建了数据库cookies表是expires utc 该列的格式类似于 13169399213145330 这更像是unix时间但是当我尝试使用 unix 时间转换器时它给出了错误的值
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
独特的 Linux 文件名，可按时间排序

以前我用的是uuidgen http man7 org linux man pages man1 uuidgen 1 html创建唯一的文件名然后我需要通过 bash 脚本按日期时间迭代该文件名从那时起我发现简单地通过 ls l 循
HBase Shell 日志记录

使用 HBase shell 时我收到大量日志记录包括 INFO 和 DEBUG 消息虽然这对于学习 HBase 内部结构来说很有趣但它非常冗长并且可能会掩盖输出我尝试过以多种不同的方式更改日志记录级别包括所描述的here ht
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1

随机推荐

如何在软件中模拟浮点运算？ [关闭]

Closed 这个问题需要多问focused 目前不接受答案当CPU没有或有问题浮点单元时软件如何执行浮点运算例如 PIC AVR 和 8051 微控制器架构效仿在 PIC AVR 和 8051 上下文中浮点是错误的术语
确保字符串文字联合属于对象的键

export type A a b c const obj a 4 b 5 c 6 d 7 我如何确保所有元素A是对象的键obj 根据您的需要您可以自动构造您的类型所有键作为一个类型您可以使用keyof将所有密钥作为一个联合体自从k
如何根据 Javascript 中的多个键对对象数组进行分组？

我的数组如下 WarehouseId 1 ShippingCarrierId 1 PostalCodeType ShipToCustomer TimeStart 1970 01 01T06 00 00 000Z TimeEnd 1970 0
使用 jQuery AJAX 发送带有二进制数据的 FormData

我想发送一个FormData通过使用 jQuery AJAX 例如 var uploadFormData new FormData uploadFormData append name value ajax url URL target t
当我返回时，控制到达非空函数的末尾[重复]

这个问题在这里已经有答案了我有一个函数它递归地调用自身直到连接到服务器然后函数返回0 为什么我有这样的错误行为控制到达非空函数的末尾指向函数结束的行我做错了什么我有 if else 语句仅在 else 中返回但即使在 i
为什么 Rust 允许在一个作用域中两次声明相同的变量名？ [复制]

这个问题在这里已经有答案了我第一次遇到允许在同一范围内声明变量名称两次的类型化语言难道不会有机会错误地覆盖现有变量吗它带来什么优势有书中有一章介绍了这一点隐藏与将变量标记为 mut 不同因为如果我们不小心尝试在不使用 let 关
从公共方法调用私有方法？

我定义了一个这样的类 function Class1 this Func1 function Methods and vars function Func2 Methods and vars 我想找到一种从私有方法 Func2 调用公共方法
在 vbscript 中使用 HTA

在使用 VBscript 的 HTA 用户窗体时我发现 HTA 不支持 WScript 及其对象方法是否有其他创建用户表单的方法或者有什么方法可以使 HTA 支持 WScript 替代方案WScript Echo就是简单地将内容添加
如何在 Openmodelica 中指定介质？

我正在 Modelica 中模拟热泵热水系统我附上了我的模特的照片但是当我运行模型时出现错误 Medium 是部分的部分类中不允许进行名称查找您能告诉我吗我该如何指定水箱热泵冷凝器和管道中的水我应该如何指定热泵蒸发器中的空
使用包含通配符条件的数组时出现问题

我一直在尝试运行 powershell 代码将文件分成 2 个我有几个常规数组效果很好第三个数组包含每个条件的通配符但这根本不起作用我尝试过 in notin like notlike contains notcontains m
如何最大程度地划分集合？

我正在尝试解决欧拉计划问题之一因此我需要一种算法来帮助我以任意顺序找到集合中所有可能的分区例如给定集合2 3 3 5 2 3 3 5 2 3 3 5 2 3 3 5 2 3 3 5 2 5 3 3 等等几乎该组成员的所有可能组合
MPMoviePlayer 控制风格

我想使用以下代码隐藏 MPMoviePlayer 中的控件 IBAction video id sender NSBundle bundle NSBundle mainBundle NSString moviePath bundle pat
如何在宏中获取当前命名空间的字符串

我需要在宏中添加名称空间前缀 IE define MYMACRO x x namespace A namespace B MYMACRO C 并且 MYMACRO 必须返回 A B C 无法工作命名空间由编译器识别编译器仅在预处理器之后
设置图像属性时，UIImageView 图像不会明显更新

我有一个 UIImageView 其用户交互是真实的并且我为其提供了点击手势识别器其操作处理程序如下 IBAction func tap sender UITapGestureRecognizer let iv sender view
如何使用 browsermob-proxy 修复“地址已在使用中”错误？

我还在尝试使用browsermob proxy here 尝试在 python selenium 测试期间监控网络流量请参阅browsermob代理我正在使用以下脚本来测试它 from browsermobproxy import Se
如何解码众多 Decodable Swift 中的单个异常属性？

我有一个符合 Decodable 的结构它有 50 个 String 属性只有 1 个 Bool 属性该布尔值来自服务器如字符串 false true 或有时如整数 0 1 因此无法从框中解码我怎样才能让它解码而不是对所有 50
每行最后一个非 NA 行的列名称；使用 tidyverse 解决方案？

数据集简要描述我有从 Qualtrics 生成的调查数据我已将其作为 tibble 导入到 R 中每列对应一个调查问题并且我保留了原始列顺序以与调查中问题的顺序相对应用通俗易懂的语言描述问题由于参与者的正常流失并非所有参与者
无法启动/private/var/containers/Bundle/Application/

我一直在尝试在 iOS 12 设备上测试应用程序但每次构建它时它都会在设备我的 iPhone 或 iPad 上成功构建但会崩溃并且我收到以下消息无法启动 private var containers Bundle Applica
useEffect 模拟 componentWillUnmount 不返回更新状态

我有一个使用 useState 初始化状态的功能组件然后通过输入字段更改该状态然后我有一个模拟 componentWillUnmount 的 useEffect 挂钩以便在组件卸载之前将当前更新的状态记录到控制台但是会记录初始
为行键放置不同值但在 hbase 中放置相同时间戳的解决方案？

我是 Hbase 的新人将文本文件中的数据批量加载到 Hbase 时遇到问题假设我有下表 Key id f1 c1 f2 c2 row1 a b row1 x y 当我解析2条记录并将其同时放入Hbase 相同的时间戳时则只有版本

为行键放置不同值但在 hbase 中放置相同时间戳的解决方案？

为行键放置不同值但在 hbase 中放置相同时间戳的解决方案？ 的相关文章

随机推荐

热门标签

为行键放置不同值但在 hbase 中放置相同时间戳的解决方案？的相关文章