Hbase系列---内置过滤器

2023-05-16

HBase为筛选数据提供了一组过滤器，通过这个过滤器可以在HBase中的数据的多个维度（行，列，数据版本）上进行对数据的筛选操作，也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上（由行键，列明，时间戳定位）。通常来说，通过行键，值来筛选数据的应用场景较多。

1. RowFilter：筛选出匹配的所有的行，对于这个过滤器的应用场景，是非常直观的：使用BinaryComparator可以筛选出具有某个行键的行，或者通过改变比较运算符（下面的例子中是CompareFilter.CompareOp.EQUAL）来筛选出符合某一条件的多条数据，以下就是筛选出行键为row1的一行数据：

Filter rf = new RowFilter(CompareFilter.CompareOp.EQUAL, new BinaryComparator(Bytes.toBytes("row1"))); // OK 筛选出匹配的所有的行

2. PrefixFilter：筛选出具有特定前缀的行键的数据。这个过滤器所实现的功能其实也可以由RowFilter结合RegexComparator来实现，不过这里提供了一种简便的使用方法，以下过滤器就是筛选出行键以row为前缀的所有的行：

Filter pf = new PrefixFilter(Bytes.toBytes("row")); // OK  筛选匹配行键的前缀成功的行

3. KeyOnlyFilter：这个过滤器唯一的功能就是只返回每行的行键，值全部为空，这对于只关注于行键的应用场景来说非常合适，这样忽略掉其值就可以减少传递到客户端的数据量，能起到一定的优化作用：

Filter kof = new KeyOnlyFilter(); // OK 返回所有的行，但值全是空

4. RandomRowFilter：从名字上就可以看出其大概的用法，本过滤器的作用就是按照一定的几率（<=0会过滤掉所有的行，>=1会包含所有的行）来返回随机的结果集，对于同样的数据集，多次使用同一个RandomRowFilter会返回不通的结果集，对于需要随机抽取一部分数据的应用场景，可以使用此过滤器：

Filter rrf = new RandomRowFilter((float) 0.8); // OK 随机选出一部分的行

5. InclusiveStopFilter：扫描的时候，我们可以设置一个开始行键和一个终止行键，默认情况下，这个行键的返回是前闭后开区间，即包含起始行，但不包含终止行，如果我们想要同时包含起始行和终止行，那么我们可以使用此过滤器：

Filter isf = new InclusiveStopFilter(Bytes.toBytes("row1")); // OK 包含了扫描的上限在结果之内

6. FirstKeyOnlyFilter：如果你只想返回的结果集中只包含第一列的数据，那么这个过滤器能够满足你的要求。它在找到每行的第一列之后会停止扫描，从而使扫描的性能也得到了一定的提升：

Filter fkof = new FirstKeyOnlyFilter(); // OK 筛选出第一个每个第一个单元格

7. ColumnPrefixFilter：顾名思义，它是按照列名的前缀来筛选单元格的，如果我们想要对返回的列的前缀加以限制的话，可以使用这个过滤器：

Filter cpf = new ColumnPrefixFilter(Bytes.toBytes("qual1")); // OK 筛选出前缀匹配的列

8. ValueFilter：按照具体的值来筛选单元格的过滤器，这会把一行中值不能满足的单元格过滤掉，如下面的构造器，对于每一行的一个列，如果其对应的值不包含ROW2_QUAL1，那么这个列就不会返回给客户端：

Filter vf = new ValueFilter(CompareFilter.CompareOp.EQUAL, new SubstringComparator("ROW2_QUAL1")); // OK 筛选某个（值的条件满足的）特定的单元格

9. ColumnCountGetFilter：这个过滤器来返回每行最多返回多少列，并在遇到一行的列数超过我们所设置的限制值的时候，结束扫描操作：

Filter ccf = new ColumnCountGetFilter(2); // OK 如果突然发现一行中的列数超过设定的最大值时，整个扫描操作会停止

10. SingleColumnValueFilter：用一列的值决定这一行的数据是否被过滤。在它的具体对象上，可以调用setFilterIfMissing(true)或者setFilterIfMissing(false)，默认的值是false，其作用是，对于咱们要使用作为条件的列，如果这一列本身就不存在，那么如果为true，这样的行将会被过滤掉，如果为false，这样的行会包含在结果集中。

		SingleColumnValueFilter scvf = new SingleColumnValueFilter(
				Bytes.toBytes("colfam1"), 
				Bytes.toBytes("qual2"), 
				CompareFilter.CompareOp.NOT_EQUAL, 
				new SubstringComparator("BOGUS"));
		scvf.setFilterIfMissing(false);
		scvf.setLatestVersionOnly(true); // OK

11. SingleColumnValueExcludeFilter：这个与10种的过滤器唯一的区别就是，作为筛选条件的列的不会包含在返回的结果中。

12. SkipFilter：这是一种附加过滤器，其与ValueFilter结合使用，如果发现一行中的某一列不符合条件，那么整行就会被过滤掉：

Filter skf = new SkipFilter(vf); // OK 发现某一行中的一列需要过滤时，整个行就会被过滤掉

13. WhileMatchFilter：这个过滤器的应用场景也很简单，如果你想要在遇到某种条件数据之前的数据时，就可以使用这个过滤器；当遇到不符合设定条件的数据的时候，整个扫描也就结束了：

Filter wmf = new WhileMatchFilter(rf); // OK 类似于Python itertools中的takewhile

14. FilterList：用于综合使用多个过滤器。其有两种关系：FilterList.Operator.MUST_PASS_ONE和FilterList.Operator.MUST_PASS_ALL，默认的是FilterList.Operator.MUST_PASS_ALL，顾名思义，它们分别是AND和OR的关系，并且 FilterList可以嵌套使用FilterList，使我们能够表达更多的需求：

		List<Filter> filters = new ArrayList<Filter>();
		filters.add(rf);
		filters.add(vf);
		FilterList fl = new FilterList(FilterList.Operator.MUST_PASS_ALL, filters); // OK 综合使用多个过滤器， AND 和 OR 两种关系

以上，是对于HBase内置的过滤器的部分总结，以下代码是数据写入代码：

package com.reyun.hbase;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.util.Bytes;

public class HBaseDataFeeding {
	private final static byte[] ROW1 = Bytes.toBytes("row1");
	private final static byte[] ROW2 = Bytes.toBytes("row2");
	private final static byte[] COLFAM1 = Bytes.toBytes("colfam1");
	private final static byte[] COLFAM2 = Bytes.toBytes("colfam2");
	private final static byte[] QUAL1 = Bytes.toBytes("qual1");
	private final static byte[] QUAL2 = Bytes.toBytes("qual2");
	
	
	public static void main(String[] args) throws IOException {
		Configuration conf = HBaseConfiguration.create();
		HTable table = new HTable(conf, "testtable");
		table.setAutoFlushTo(false);
		Put put_row1 = new Put(ROW1);
		put_row1.add(COLFAM1, QUAL1, Bytes.toBytes("ROW1_QUAL1_VAL"));
		put_row1.add(COLFAM1, QUAL2, Bytes.toBytes("ROW1_QUAL2_VAL"));
		
		Put put_row2 = new Put(ROW2);
		put_row2.add(COLFAM1, QUAL1, Bytes.toBytes("ROW2_QUAL1_VAL"));
		put_row2.add(COLFAM1, QUAL2, Bytes.toBytes("ROW2_QUAL2_VAL"));
		
		try{
			table.put(put_row1);
			table.put(put_row2);
		}finally{
			table.close();
		}
	}

}

以下是过滤器测试代码，可以通过修改代码，更换过滤器来看到具体的效果：

package com.reyun.hbase;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.filter.BinaryComparator;
import org.apache.hadoop.hbase.filter.ColumnCountGetFilter;
import org.apache.hadoop.hbase.filter.ColumnPrefixFilter;
import org.apache.hadoop.hbase.filter.CompareFilter;
import org.apache.hadoop.hbase.filter.Filter;
import org.apache.hadoop.hbase.filter.FilterList;
import org.apache.hadoop.hbase.filter.FirstKeyOnlyFilter;
import org.apache.hadoop.hbase.filter.InclusiveStopFilter;
import org.apache.hadoop.hbase.filter.KeyOnlyFilter;
import org.apache.hadoop.hbase.filter.PageFilter;
import org.apache.hadoop.hbase.filter.PrefixFilter;
import org.apache.hadoop.hbase.filter.RandomRowFilter;
import org.apache.hadoop.hbase.filter.RowFilter;
import org.apache.hadoop.hbase.filter.SkipFilter;
import org.apache.hadoop.hbase.filter.ValueFilter;
import org.apache.hadoop.hbase.filter.SingleColumnValueFilter;
import org.apache.hadoop.hbase.filter.SubstringComparator;
import org.apache.hadoop.hbase.filter.WhileMatchFilter;
import org.apache.hadoop.hbase.util.Bytes;

public class HBaseScannerTest {

	public static void main(String[] args) throws IOException, IllegalAccessException {
		Configuration conf = HBaseConfiguration.create();
		HTable table = new HTable(conf, "testtable");
		table.setAutoFlushTo(false);
		
		Scan scan1 = new Scan();
		SingleColumnValueFilter scvf = new SingleColumnValueFilter(
				Bytes.toBytes("colfam1"), 
				Bytes.toBytes("qual2"), 
				CompareFilter.CompareOp.NOT_EQUAL, 
				new SubstringComparator("BOGUS"));
		scvf.setFilterIfMissing(false);
		scvf.setLatestVersionOnly(true); // OK
		Filter ccf = new ColumnCountGetFilter(2); // OK 如果突然发现一行中的列数超过设定的最大值时，整个扫描操作会停止
		Filter vf = new ValueFilter(CompareFilter.CompareOp.EQUAL, new SubstringComparator("ROW2_QUAL1")); // OK 筛选某个（值的条件满足的）特定的单元格
		Filter cpf = new ColumnPrefixFilter(Bytes.toBytes("qual2")); // OK 筛选出前缀匹配的列
		Filter fkof = new FirstKeyOnlyFilter(); // OK 筛选出第一个每个第一个单元格
		Filter isf = new InclusiveStopFilter(Bytes.toBytes("row1")); // OK 包含了扫描的上限在结果之内
		Filter rrf = new RandomRowFilter((float) 0.8); // OK 随机选出一部分的行
		Filter kof = new KeyOnlyFilter(); // OK 返回所有的行，但值全是空
		Filter pf = new PrefixFilter(Bytes.toBytes("row")); // OK  筛选匹配行键的前缀成功的行
		Filter rf = new RowFilter(CompareFilter.CompareOp.NOT_EQUAL, new BinaryComparator(Bytes.toBytes("row1"))); // OK 筛选出匹配的所有的行
		Filter wmf = new WhileMatchFilter(rf); // OK 类似于Python itertools中的takewhile
		Filter skf = new SkipFilter(vf); // OK 发现某一行中的一列需要过滤时，整个行就会被过滤掉
		
		List&lt;Filter&gt; filters = new ArrayList&lt;Filter&gt;();
		filters.add(rf);
		filters.add(vf);
		FilterList fl = new FilterList(FilterList.Operator.MUST_PASS_ALL, filters); // OK 综合使用多个过滤器， AND 和 OR 两种关系
		
		scan1.
		setStartRow(Bytes.toBytes("row1")).
		setStopRow(Bytes.toBytes("row3")).
		setFilter(scvf); 
		ResultScanner scanner1 = table.getScanner(scan1);
		
		for(Result res : scanner1){
			for(Cell cell : res.rawCells()){
				System.out.println("KV: " + cell + ", Value: " + Bytes.toString(CellUtil.cloneValue(cell)));
			}
			System.out.println("------------------------------------------------------------");
		}
		
		scanner1.close();
		table.close();
	}
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hbase系列---内置过滤器的相关文章

2021 神经网络压缩（李宏毅

首先 xff0c 为什么需要对神经网络模型进行压缩呢 xff1f 我们在之前的课程中介绍过很多大型的深度学习模型 xff0c 但当我们想要将这些大模型放在算力比较小的边缘设备或者其他IoT设备里面 xff0c 就需要对大模型进行压缩 Low
李宏毅2023春季机器学习笔记 - 01生成AI（ChatGPT）

一引言预设的知识储备要求 xff1a 数学 xff08 微积分线性代数机率 xff09 xff1b 编程能力 xff08 读写python xff09 这门课专注在深度学习领域deep learning xff0c 事实上深度学习
斯坦福21秋实用机器学习（李沐）1. 课程介绍、数据获取、网页抓取、数据标注

机器学习项目流程 1 把问题变成机器学习的问题有的问题挺难的 xff1a 叠衣服开车有些看似难得机器学习却容易做 xff1a 翻译在工业界 xff0c 很多问题多少会有一点自己特有的地方 xff0c 需要对整个ML算法 xff0c
python 语法糖【不断更新】

1 得到a和b两个数的最大值 solution c 61 b a a gt b 测试 xff1a span class hljs prompt gt gt gt span a 61 span class hljs number 1 span
ubuntu 登入后又提示登入界面

解决法方 xff1a 在登入界面按下 Ctrl 43 Alt 43 F1 进入tty模式 Ctrl 43 Alt 43 F7 进入界面模式下面以root用户为例 1 Xauthority 文件不存在 xff08 Xauthority 文
openstack 创建云主机No valid host was found. There are not enough hosts available.

1 openstack创建云主机时界面报错 xff1a No valid host was found There are not enough hosts available 2 查看nova下的调度信息出现 xff08 nova sch
锐捷交换机SNMP配置

一组网需求 1 交换机允许IP xff08 192 168 1 2 24 xff09 的网管工作站对网络设备 xff08 192 168 1 1 xff09 进行管理共同体为 ruijie 或者 public 2 网络设备能够主动向网管
使用Python实现Map Reduce程序

Hadoop 框架是使用Java编写的但是我们仍然需要使用像C 43 43 Python等语言来实现 Hadoop程序在Hadoop官网https hadoop apache org docs r1 0 4 cn mapred tutor
[深度学习]note for Machine Learning: An Algorithmic Perspective, Second Edition（Ch01-Ch03）【部分勘误+代码待补充】

Machine Learning An Algorithmic Perspective Second Edition Part 1 1 绪论1 1 如果数据有质量 xff0c 地球将成为黑洞1 2 学习1 2 1 机器学习 1 3 机器学习
新的一年：运动强身，读书明智，思考修心

新的一年 xff1a 运动强身 xff0c 读书明智 xff0c 思考修心新年的目的 xff0c 并非是拥有新的一年 xff0c 而是期待一个新的灵魂 xff01
[深度学习]note for Machine Learning: An Algorithmic Perspective, Second Edition（Ch04-Ch06）【日常更新】

Machine Learning An Algorithmic Perspective Second Edition Part 2 4 多层感知器4 1 前向4 1 1 偏置 4 2 后向 xff1a 误差的反向传播4 2 1 多层感知器算
[深度学习]Part1 Python学习进阶Ch24图像处理OpenCV（24.14~24.23）——【DeepBlue学习笔记】

本文仅供学习使用 Python高级 Ch24图像处理OpenCV xff08 24 14 24 23 xff09 24 图像处理OpenCV24 14 轮廓查找与绘制24 14 1 查找轮廓 cv2 findContours 24 14 2
[足式机器人]Part3机构运动微分几何学分析与综合Ch02-4 平面机构离散运动鞍点综合——【读书笔记】

本文仅供学习使用本文参考 xff1a 机构运动微分几何学分析与综合王德伦汪伟微分几何吴大任 Ch02 4 平面机构离散运动鞍点综合 2 5 平面四杆机构离散运动鞍点综合2 5 1 平面机构的运动综合类型2 5 1 1 高阶运动综合
解决从excel导入\导出日期格式数据时的问题

从excel 导入日期会自动转换成一个数字 number格式 xff09 这个数字是减掉1900年1月1日的天数后得到的例如 25569就是 1970 01 01 public import target DataTransfer Obs
数据清洗(Data Cleaning)

数据清洗数据清洗 Data Cleaning 目录隐藏 1 什么是数据清洗 1 2 数据清洗原理 2 3 数据清洗的实现方式与范围 2 4 数据清洗的方法 3 5 相关条目 6 参考文献编辑什么是数据清洗 1 数据清洗是指发现并纠
QT笔记——QT工具uic，rcc，moc，qmake的使用和介绍

uic xff0c rcc xff0c moc xff0c qmake 都是 qt 的工具 uic 主要是编译 ui文件 ui xxx cpp rcc 主要是编译资源文件 qrc文件 xxx rcc moc 主要是编译带有Q OB
spring 中常用的设计模式

一 Spring 中常见的设计模式工厂模式 xff1a BeanFactory 装饰器模式 xff1a BeanWrapper 代理模式 xff1a AopProxy 单例模式 xff1a ApplicationContext 委派模式
阿里云 docker 前后端分离部署 nginx解决跨域问题

问题前端 80端口后的 8080端口外网映射端口 9081 对应8080 9082对应80 前端会掉用后端的api 8080 das admin 端口不同产生跨域问题 1 临时解决思路谷歌浏览器设置 C Users dns00 A
分布式理论(二)——Base 理论

BASE 理论 BASE 是 Basically Available xff08 基本可用 xff09 Soft state xff08 软状态 xff09 和 Eventually consistent xff08 最终一致性 xff09
nodejs和vuejs的关系

nodejs类比Java中 xff1a JVM 详述 xff1a 就前端来说nodejs具有划时代的意义 xff0c 做前端的没用过nodejs都不好意思说自己是前端 xff0c 做后端的没听过nodejs xff0c 或者说不出nodej

随机推荐

sonic-ios-bridge（sib）性能监控之系统性能及应用性能

sib下载地址 xff1a Releases SonicCloudOrg sonic ios bridge GitHub 可以看到最新版本为V1 3 7 下载到本地并解压后即可使用性能监控使用帮助 xff1a sib perfmon h
tomcat lombok 报 Invalid byte tag in constant pool: 19

提供给其他系统使用的jar包造成tomcat启动报错 xff1a Unable to process Jar entry module info class from Jar jar file xxxxxxxx lombok 1 18 4
Tomcat的性能与最大并发配置

当一个进程有 500 个线程在跑的话 xff0c 那性能已经是很低很低了 Tomcat 默认配置的最大请求数是 150 xff0c 也就是说同时支持 150 个并发 xff0c 当然了 xff0c 也可以将其改大当某个应用拥有 250 个
Redis 单机模式，主从模式，哨兵模式(sentinel)，集群模式(cluster)优缺点分析

Redis 单机模式 xff0c 主从模式 xff0c 哨兵模式 sentinel xff0c 集群模式 cluster xff0c 第三方模式优缺点分析 Redis 的几种常见使用方式包括 xff1a 单机模式主从模式哨兵模式 senti
tomcat开机自启动

有两种方式可以实现 xff0c 一种是自启动脚本一种是将tomcat注册为服务 xff0c 设置服务自启动一自启动脚本 1 添加tomcat启动脚本到开机自启动项目中 vim etc rc d rc local 增加以下内容 xff1
jeecgboot @Transactional捕获异常并拿到返回值

64 Transactional 和 64 RestControllerAdvice 并不冲突回滚的同时拦截异常返回需要的值给前端 64 Override 64 Transactional rollbackFor 61 Exception
@AliasFor 注解使用规则

64 AliasFor 顾名思义 xff0c 表示别名 1 它可以注解到自定义注解的两个属性上 xff0c 表示这两个互为别名 2 注解是可以继承的 xff0c 但是不能用来继承父注解的某个属性值 xff0c 可以通过在子注解对于的属性上加
Docker Desktop修改默认安装路径？

原理 xff1a 建立一个目录的软链接用管理员身份打开cmd窗口 xff0c 然后运行命令 xff1a mklink j 34 C Program Files Docker 34 34 D Program Files Docker 34
java web项目打包成exe安装程序

需求 xff1a 由于java web项目 xff0c 需要依赖mysql数据库 tomcat容器 jdk等 xff0c 部署需要一定技术支持才能够完成 xff0c 操作繁琐 xff0c 希望简化目标 xff1a 制作一个exe一键安装相
http 请求参数包含? & 处理

escape encodeURI encodeURIComponent 区别详解 JavaScript中有三个可以对字符串编码的函数 xff0c 分别是 xff1a escape encodeURI encodeURIComponent x
多个项目共用一个redis

redis 数据库是由一个整数索引标识 xff0c 而不是由一个数据库名称默认情况下连接到数据库0 因此多个项目如果配置不做修改都会使用0号数据库 xff0c 会发生冲突所以每个项目配置不同的 database 即可解决
LoadRunner中参数化技术详解

LoadRunner中参数化技术详解 LoadRunner在录制脚本的时候 xff0c 只是忠实的记录了所有从客户端发送到服务器的数据 xff0c 而在进行性能测试的时候 xff0c 为了更接近真实的模拟现实应用 xff0c 对于某些信息需
23种设计模式类图

下边是23种设计模式的类图大汇总 xff0c 23种设计模式解析请移步 http blog csdn net qq 25827845 article details 52932234 1 创建类模式 2 行为类模式 3 结构类模式
navicat 复制表结构到word文档做数据库设计格式问题解决

需求 xff1a 写数据库设计文档 xff0c 需要设计数据字典 xff0c 贴表结构 xff0c 如果是几百张表一个个填工作量很大解决方案 xff1a 1 sql查询所有字段 2 整体复制到excel 3 拆分表 xff0c 调整列项
vue图片压缩上传组件修改

判断逻辑大于200KB 压缩上传 xff0c 否则不做处理上传原始图片 1 安装插件 yarn add image conversion 2 引入 import compressAccurately from 39 image conve
new ScriptEngineManager().getEngineByName(“js“)返回null

问题出现的场景 xff1a 本地开发和生产环境都没问题 xff0c 测试环境用的docker 报空指针 new ScriptEngineManager getEngineByName 34 js 34 返回null js替换 JavaSc
vue a-collapse的默认全部展开

思路 xff1a activekey的值为默认展开的项 xff0c 要想全部展开 xff0c 就得把所有的key值都加到 activekey中如下例子 xff0c activekey 61 39 1 39 默认展开第一个要想全部展开就需
软件工程——软件结构图设计（变换分析设计、事务分析设计、混合流设计）

结构化设计 SD 是以结构化分析 SA 产生的数据流图为基础 xff0c 将数据流图按一定的步骤映射成软件结构图 SC 一数据流的类型结构化设计的目的是要把数据流图映射成软件结构 xff0c 根据数据流的特性 xff0c 一般可分为变换
Linux下Appium+Python移动应用自动化测试实战之“Android Emulator Headless”

腊月二十九写的那篇手把手定位元素编写用例的文章 xff0c 没想到在4天的时间获得了2000多的阅读量作为一个成熟的概念和框架 xff0c 没想到热度竟然还这么高博主果断放弃了今天下午的10公里越野 xff0c 加快推出Android
Hbase系列---内置过滤器

HBase为筛选数据提供了一组过滤器 xff0c 通过这个过滤器可以在HBase中的数据的多个维度 xff08 行 xff0c 列 xff0c 数据版本 xff09 上进行对数据的筛选操作 xff0c 也就是说过滤器最终能够筛选的数据能够细

Hbase系列---内置过滤器

Hbase系列---内置过滤器 的相关文章

随机推荐

热门标签

Hbase系列---内置过滤器的相关文章