pig中通过pigLatin来分析数据

2023-11-05

pig中的表的都是装在内存中的，如果pig命令行退出后这些表也不复存在。

1、需要把Hadoop的JobHistory Server启动
       mr-jobhistory-daemon.sh start historyserver
       Web Console：http://ip:19888/jobhistory

   2、常用的PigLatin语句
       （*）load：加载数据，创建表，相当于create table
       （*）foreach：是一个循环，对表中的每一行进行处理
       （*）group by 分组
       （*）filter：过滤，相当于where
       （*）join：连接，多表查询
       （*）union、intersect：集合运算
       （*）generate：提取列，相当于：select 列1,列2,列3 ******

       以上的语句，都不会立即触发计算；只有下面的语句才会立即执行MapReduce
       （*）dump：打印在屏幕
       （*）store：输出到文件

       对应Spark中，算子有两种
       （1）Transformation：延迟计算
       （2）Action：触发计算

   3、通过PigLatin分析数据：数据 emp.csv，dept.csv

       7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30
       （1）创建员工表
           emp = load '/scott/emp.csv';

           查看表结构
           describe emp; ---> Schema for emp unknown.
因为我们创建表的时候并没有制定表结构，所有显示emp的约束为未知
       （2）创建员工表和表结构：默认的数据类型：bytearray
           emp = load '/scott/emp.csv' as(empno,ename,job,mgr,hiredate,sal,comm,deptno);

因为没有指定列对应的数据类型，所以默认的字节数据

然后我们使用dump查看一下表的数据

然后我们就看到很多的逗号，这是因为我们在创建表的时候没有对csv总数据指定分割符而是使用了pig默认的分割符

        创建表，表结构，列的类型，指定分隔符
           emp = load '/scott/emp.csv' using PigStorage(',') as(empno:int,ename:chararray,job:chararray,mgr:int,hiredate:chararray,sal:int,comm:int,deptno:int);

           创建部门表
           dept = load '/scott/dept.csv' using PigStorage(',') as(deptno:int,dname:chararray,loc:chararray);

       （3）join：查询员工信息：员工姓名、部门名称
           SQL：select ename,dname
           from emp,dept
               where emp.deptno=dept.deptno;

           PL：t31 = join dept by deptno,emp by deptno; ---> 不会立即执行计算

emp中的数据：

dept中的数据：

t31中的数据：

(10,ACCOUNTING,NEW YORK,7934,MILLER,CLERK,7782,1982/1/23,1300,0,10)
(10,ACCOUNTING,NEW YORK,7839,KING,PRESIDENT,-1,1981/11/17,5000,0,10)
(10,ACCOUNTING,NEW YORK,7782,CLARK,MANAGER,7839,1981/6/9,2450,0,10)
(20,RESEARCH,DALLAS,7876,ADAMS,CLERK,7788,1987/5/23,1100,0,20)
(20,RESEARCH,DALLAS,7788,SCOTT,ANALYST,7566,1987/4/19,3000,0,20)
(20,RESEARCH,DALLAS,7369,SMITH,CLERK,7902,1980/12/17,800,0,20)
(20,RESEARCH,DALLAS,7566,JONES,MANAGER,7839,1981/4/2,2975,0,20)
(20,RESEARCH,DALLAS,7902,FORD,ANALYST,7566,1981/12/3,3000,0,20)
(30,SALES,CHICAGO,7844,TURNER,SALESMAN,7698,1981/9/8,1500,0,30)
(30,SALES,CHICAGO,7499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,30)
(30,SALES,CHICAGO,7698,BLAKE,MANAGER,7839,1981/5/1,2850,0,30)
(30,SALES,CHICAGO,7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30)
(30,SALES,CHICAGO,7521,WARD,SALESMAN,7698,1981/2/22,1250,500,30)
(30,SALES,CHICAGO,7900,JAMES,CLERK,7698,1981/12/3,950,0,30)
           t32 = foreach t31 generate dept::dname,emp::ename; ---> 不会立即执行计算
               dump t32; -----> 立即执行计算

       （4）查询员工信息：员工号，姓名和薪水
           SQL： select empno,ename,sal from emp;
           PL: emp4 = foreach emp generate empno,ename,sal; ---> 不会立即执行计算
               dump emp4; -----> 立即执行计算

       （5）查询员工信息：按照薪水排序
           SQL：select * from emp order by sal;
           PL: emp5 = order emp by sal; ---> 不会立即执行计算（延迟计算）
           dump emp5; -----> 立即执行计算

       （6）分组：求每个部门工资的最大值
           SQL：select deptno,max(sal) from emp group by deptno;
           PL: 第一步：分组
               emp61 = group emp by deptno;
                   表结构
                   emp61: {group: int,
                   emp: {(empno: int,ename: chararray,job: chararray,mgr: int,hiredate: chararray,sal: int,comm: int,deptno: int)}}

                   数据 dump emp61;
                   (10,{(7934,MILLER,CLERK,7782,1982/1/23,1300,0,10),
                   (7839,KING,PRESIDENT,-1,1981/11/17,5000,0,10),
                       (7782,CLARK,MANAGER,7839,1981/6/9,2450,0,10)})

                   (20,{(7876,ADAMS,CLERK,7788,1987/5/23,1100,0,20),
                   (7788,SCOTT,ANALYST,7566,1987/4/19,3000,0,20),
                       (7369,SMITH,CLERK,7902,1980/12/17,800,0,20),
                       (7566,JONES,MANAGER,7839,1981/4/2,2975,0,20),
                       (7902,FORD,ANALYST,7566,1981/12/3,3000,0,20)})

                   (30,{(7844,TURNER,SALESMAN,7698,1981/9/8,1500,0,30),
                   (7499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,30),
                       (7698,BLAKE,MANAGER,7839,1981/5/1,2850,0,30),
                       (7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30),
                       (7521,WARD,SALESMAN,7698,1981/2/22,1250,500,30),
                       (7900,JAMES,CLERK,7698,1981/12/3,950,0,30)})

               第二步：最高工资
               emp62 = foreach emp61 generate group,MAX(emp.sal);

       （7）执行WordCount
           ① 加载数据 ----> 延迟计算
           mydata = load '/input/data.txt' as (line:chararray);

② 将字符串分割成单词 ----> 延迟计算
words = foreach mydata generate flatten(TOKENIZE(line)) as word;

③ 对单词进行分组 ----> 延迟计算
grpd = group words by word;

④ 统计每组中单词数量 ----> 延迟计算
cntd = foreach grpd generate group,COUNT(words);

⑤ 打印结果 ----> 执行计算
dump cntd;

Pig的自定义函数：过滤函数，运算函数，加载函数
   需要的jar包
   $PIG_HOME/pig-0.17.0-core-h2.jar
   $PIG_HOME/lib
   $PIG_HOME/lib/h2
   $HADOOP_HOME/share/hadoop/common
   $HADOOP_HOME/share/hadoop/common/lib

1、自定义的过滤函数：相当于where语句
举例：查询薪水大于3000的员工

package demo;

import java.io.IOException;

import org.apache.pig.FilterFunc;
import org.apache.pig.data.Tuple;

public class IsSalaryTooHigh extends FilterFunc
{

	@Override
	public Boolean exec(Tuple tuple) throws IOException {
		int sal = (Integer)tuple.get(0);
		return sal>3000?true:false;
	}

}

   2、自定义的运算函数：求表达式的值
       举例：根据员工的薪水，判断级别
           sal<=1000 返回 Grade A
           1000<sal<=3000 返回 Grade B
           sal>3000 返回 Grade C

package demo;

import java.io.IOException;

import org.apache.pig.EvalFunc;
import org.apache.pig.data.Tuple;

public class CheckSalaryGrade extends EvalFunc<String>
{

	@Override
	public String exec(Tuple tuple) throws IOException {
		int sal = (Integer)tuple.get(0);
		/*sal<=1000 返回 Grade A
				0100<sal<=3000 返回 Grade B
				sal>3000 返回 Grade C*/
		if (sal>3000 )
		{
			return "Grade C";
		}else if (sal>1000) {
			return "Grade B";
		}else {
			return "Grade A";
		}
	}

}

   3、自定义的加载函数
       还需要MapReduce的jar包
       $HADOOP_HOME/share/hadoop/mapreduce
       $HADOOP_HOME/share/hadoop/mapreduce/lib

package demo;

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.pig.LoadFunc;
import org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigSplit;
import org.apache.pig.data.BagFactory;
import org.apache.pig.data.DataBag;
import org.apache.pig.data.Tuple;
import org.apache.pig.data.TupleFactory;

public class MyloadFunction extends LoadFunc
{

	private RecordReader reader;
	@Override
	public InputFormat getInputFormat() throws IOException {
		return new TextInputFormat();
	}

	@Override
	public Tuple getNext() throws IOException {
		Tuple tuple=null;
		try
		{
			if (!reader.nextKeyValue())
			{
				return null;
			}
			//创建一个返回的结果
			tuple = TupleFactory.getInstance().newTuple();
			
			//获取数据:  I love Beijing
			Text value = (Text) this.reader.getCurrentValue();
			String data = value.toString();
			//分词
			String[] words = data.split(" ");
			
			//创建表
			DataBag bag = BagFactory.getInstance().newDefaultBag();
			for(String w:words) {
				Tuple one = TupleFactory.getInstance().newTuple();
				//把单词放在tuple上
				one.append(w);
				
				//再把tuple放入表
				bag.add(one);
			}
			//最后，把表放入tuple
			tuple.append(bag);
		} catch (Exception e)
		{
			// TODO: handle exception
		}
		return tuple;
	}

	@Override
	public void prepareToRead(RecordReader reader, PigSplit arg1) throws IOException {
		this.reader=reader;
	}

	@Override
	public void setLocation(String path, Job job) throws IOException {
		FileInputFormat.setInputPaths(job, path);
	}

}

当这些程序写完了之后需要使用pig的register命令注册一下

也可以对里边的具体方方法使用define命令给函数起个别名，暂时不操作，最后测试一下

然后使用自定义的函数进行测试；

emp1 =filter emp by demo.IsSalaryTooHigh(sal);.

emp2 =foreach emp generate ename ,demo.CheckSalaryGrade(sal);

mydata =load '/input/data.txt' using demo.MyloadFunction();

最后我们测试一下define命令

define isSTH demo.IsSalaryTooHigh();

emp1 =filter emp by isSTH(sal);

最后效果是一样的

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pig中通过pigLatin来分析数据的相关文章

WEB练题（1）

NSSCTF gift F12 进入靶机网站后按F12打开控制台可见flag flag WLLMCTF We1c0me t0 WLLMCTF Th1s 1s th3 G1ft ctfshow web签到题进入靶机网站后显示如下打开
could not acquire a semaphore for execution

环境 spring boot starter 1 5 2 RELEASE spring cloud starter eureka 1 2 6 RELEASE jar spring cloud starter hystrix 1 2 6 RE
SDIO接口简单描述

转 https www cnblogs com hellokitty2 p 10981084 html SDIO接口一 SDIO简介 SDIO接口是在SD内存卡接口的基础上发展起来的接口 SDIO接口兼容以前的SD内存卡并且可以连接SD
2023华为od机试真题B卷 Python 实现【改造火星/广度优先搜索】

题目在未来的某一天我们需要通过对火星的大气分析但是我们不能一次性改造完成每一次只能改造部分地区待改造区域被划分为一个由row column的网格组成的区域每个网格有三种可能的值宜居区 YES 可改造区 NO 死亡区 NA 在最
tru64系统服务器,主流服务器设置比较（12页）-原创力文档

主流服务器UNIX操作系统用户帐号的设置账号设置 HP UX FreeBSD Solaris SPARC 密码文件 etc passwd tcb files auth r root etc passwd etc master passwd

随机推荐

SQLI-LABS Less-18 到 Less-19

Header 请求头注入 User Agent Referer Cookie 注入点不同注入手法相似 Less 18 User Agent 通常就是用户的浏览器相关信息例如 User Agent Mozilla 5 0 X11 Linu
MYSQL的入门基础概述部署安装

MySQL概述 1 平台 1 linux 2 win 数据分析 2 部署的方式 linux 1 rpm 方式部署 1 方便 2 学习 3 不能够定制化 2 tar包方式二进制方式 3 版本三大版本 5 6 5 7 主流 8 x 次主流
keil的终极配色方案（提供配置文件）

1 效果图先放效果图本资源来源于网络下载整理白色背景蓝色字体使用说明版本建议keil5 32 GB2321设置这套配色需要你安装JetBrains Mono字体 JetBrains的字体真的太漂亮了或者使用微软的YaHei C
QT 基础ui设计

可视化ui设计 dialog头文件 ifndef DIALOG H define DIALOG H include
最全的2021蓝桥杯算法课《算法很美》的学习笔记总目录+真题详解

这里写目录标题第一章位运算第二章递归第三章查找与排序直接看真题嗷嗷把奖拿本系列是对最全的2021蓝桥杯算法课算法很美的笔记总结和归纳学习视频算法很美第一章位运算 1 1课程介绍 1 2题解如何找数组中唯一成对的
Tomcat中给server.xml加入元素

转载地址 http hdxiong iteye com blog 650539
kubeadm极速部署Kubernetes 1.24版本集群

文章目录 kubeadm极速部署Kubernetes 1 24版本集群一 Kubernetes 1 24版本集群部署 1 1 Kubernetes 1 24版本集群部署环境准备 1 1 1 主机操作系统说明 1 1 2 主机硬件配置说明
leetcode 402. Remove K Digits 贪心算法 + DFS深度优先遍历 + stack

Given a non negative integer num represented as a string remove k digits from the number so that the new number is the s
Scrapy：对于Spider可以设置custom_settings来覆盖项目配置

说明如题
8.8 SpringBoot集成ElasticSearch之指定返回字段

1 接口实现方式 1 condition开发在项目目录 src main java com example es condition 的EmployeeCondition类中实现SourceProvider接口具体代码如下 Data p
数据库—封锁的粒度

封锁的粒度封锁对象的大小称为封锁粒度封锁对象可以是逻辑单元也可以是物理单元其中逻辑单元包括属性值属性值的集合元组关系索引项整个索引整个数据库等物理单元包括页数据页或索引页物理记录等封锁粒度与系统的并发度和并
【王道操作系统】3.1.11 段页式存储管理(段表、页表、地址转换)

段页式存储管理段表页表地址转换文章目录段页式存储管理段表页表地址转换 1 分页分段的优缺点分析 2 分段分页段页式管理 3 段页式管理的地址转换过程 1 分页分段的优缺点分析 2 分段分页段页式管理 3 段页式管
Codeforces Round #808 (Div. 2)C - Doremy‘s IQ

C Doremy s IQ time limit per test1 second memory limit per test256 megabytes inputstandard input outputstandard output D
爬虫三：用xpath爬取链家网二手房信息

爬虫流程发起请求通过使用HTTP库向目标站点发起请求即发送一个Request 请求可以包含额外的headers等信息并等待服务器响应获取响应内容如果服务器能正常响应则会得到一个Response Response的内容就是所要获取
win11系统提示msvcp140.dll丢失的三个解决方法，简单实用

Win11系统在运行photoshop或其他软件游戏的时候电脑提示找不到msvcp140 dll msvcp140 dll丢失无法定位输入点msvcp140 dll 等问题都是由于Windows11系统中的msvcp140 dll
verilog语言编写4-16译码器

verilog语言编写4 16译码器 liuchao L 4 16译码器verilog源文件 module my4 16 a b c d out input a input b input c input d output reg 15 0
Nginx之自签名证书创建、配置、接口代理

Nginx自签名证书创建配置接口代理安装nginx sudo apt install y nginx 创建自签名证书创建保存证书文件的目录 sudo mkdir p etc nginx cert 切换的创建的证书目录下然后执行下列
【Yarn】Yarn调度ResourceScheduler框架之CapacityScheduler

1 概述在上一篇文章 Yarn Yarn调度ResourceScheduler框架我们大致了解了Yarn的带哦度框架在这个里面我们将学习CapacityScheduler 2 CapacityScheduler CapacitySch
list＜＞的用法

1 list表示的是列表 lt gt 表示的是泛型 list lt gt 表示存放某一类型的数据例如list
pig中通过pigLatin来分析数据

pig中的表的都是装在内存中的如果pig命令行退出后这些表也不复存在 1 需要把Hadoop的JobHistory Server启动 mr jobhistory daemon sh start historyserver Web Cons

pig中通过pigLatin来分析数据

pig中通过pigLatin来分析数据 的相关文章

随机推荐

热门标签

pig中通过pigLatin来分析数据的相关文章