mapreduce python编程实例

2023-05-16

mapreduce python编程实例

1 - mapreduce使用python WordCount实例
1.1 - mapper函数使用
vi mapper.py
#!/usr/bin/python
# _*_ coding:utf-8 _*_
#Filename:mapper.py

import sys
for line in sys.stdin: #读取标准输入
line = line.strip() #删除前导和尾随空白
words = line.split() #用split讲该行的单词分割成列表，每个单词就时一个列表项目，split的默认参数是空格，所以不传递任何参数时分割空格，在英文中也就等同于分割单词
for word in words:
print'%s\t%s'%(word,1)

[root@lsn-linux python]# echo "foo foo quux labs foo bar quux" |python /hadoop/hadoop-2.6.0/python/mapper.py
foo 1
foo 1
quux 1
labs 1
foo 1
bar 1
quux 1

2.2 - reduce函数使用
vim reduce.py
#!/usr/bin/python
#_*_ coding:utf-8 _*_
#Filename:reduce.py

from operator import itemgetter //排序
import sys

word2count = {} #定义一个字典

for line in sys.stdin:
line = line.strip()
word,count = line.split('\t',1)
try:
count = int(count)
word2count[word] = word2count.get(word,0)+count #word2count.get(word,0)，查找word键值，如果不存在返回0，如果存在返回键值
except ValueError:
pass

sorted_word2count = sorted(word2count.items(),key=itemgetter(0)) #用word2count.items()的第一个项目进行排序

for word,count in sorted_word2count:
print'%s\t%s'%(word,count)

[root@lsn-linux python]# echo "foo foo quux labs foo bar quux"|python mapper.py|python reduce.py
bar 1
foo 3
labs 1
quux 2

1.3 - 在mapreduce执行
拷贝./share/hadoop/tools/lib/hadoop-streaming-2.6.0.jar到hadoop目录
赋予脚本执行权限，否则会报Cannot run program "/hadoop/hadoop-2.6.0/python/mapper.py": error=13, Permission denied错误
chmod +x -R python

hadoop jar hadoop-streaming-2.6.0.jar -mapper /hadoop/hadoop-2.6.0/python/mapper.py -reducer /hadoop/hadoop-2.6.0/python/reduce.py -input /testin/* -output /testout

----------------------------------------------------------------------------------------------------------------------------------------------------------------------

3 - web访问日志分析
日志类型：
175.44.19.36 - - [29/Sep/2013:00:10:57 +0800] "GET /mapreduce-nextgen/client-codes/ HTTP/1.1" 200 25470 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;)"
112.111.183.57 - - [29/Sep/2013:00:10:58 +0800] "POST /wp-comments-post.php HTTP/1.1" 302 513 "http://dongxicheng.org/search-engine/scribe-intro/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
5.63.145.70 - - [29/Sep/2013:00:11:03 +0800] "HEAD / HTTP/1.1" 200 221 "-" "checks.panopta.com"

2.1 - 统计访问ip地址数目
mapper实现--正则表达式
#!/usr/bin/python
# _*_ coding:utf-8 _*_
#Filename:mapper_3_1.py
import re
import sys

for line in sys.stdin:
line = line.strip()
words=re.match('(\d{1,3}\.){3}\d{1,3}',line).group()
words = words.split('\n')
for i in range(0,len(words)):
print'%s\t%s'%(words[i],1)

mapper实现--字符串
#!/usr/bin/python
# _*_ coding:utf-8 _*_
#Filename:mapper_3_1_1.py
import sys
for line in sys.stdin:
line = line.strip()
words=line[:line.find(' ')]
words = words.split('\n')
for i in range(0,len(words)):
print'%s\t%s'%(words[i],1)

reduce与之前一样

2.2 - 统计目录访问次数（/mapreduce-nextgen/client-codes/）
mapper实现--filter(lambda)打印
#!/usr/bin/python
# _*_ coding:utf-8 _*_
#Filename:mapper_3_2.py
import sys
for line in sys.stdin:
line = line.strip()
if line.find('GET')!=-1:
words=line[line.find('GET')+3:line.find('HTTP')]
# if line.find('POST')!=-1:
elif line.find('HEAD')!=-1:
words=line[line.find('HEAD')+4:line.find('HTTP')]
else:
words=line[line.find('POST')+4:line.find('HTTP')]
words = filter(lambda word: word, words.split('\n'))
for word in words:
print'%s\t%s'%(word,1)

mapper实现--元组打印（遇到空行实现不了）
#!/usr/bin/python
# _*_ coding:utf-8 _*_
#Filename:mapper_3_2.py
import sys
for line in sys.stdin:
line = line.strip()
if line.find('GET')!=-1:
words=line[line.find('GET')+3:line.find('HTTP')]
# if line.find('POST')!=-1:
elif line.find('HEAD')!=-1:
words=line[line.find('HEAD')+4:line.find('HTTP')]
else:
words=line[line.find('POST')+4:line.find('HTTP')]
words = filter(lambda word: word, words.split('\n'))
for word in words:
print'%s\t%s'%(word,1)

reduce与之前一样

2.3 - 统计每个 ip，访问的子目录次数，输出如：175.44.30.93 /structure/heap/ 8
取IP 和路径 1
如果一样 +1
思路：IP和目录用\t来做分隔符，然后使用特殊符号\@来做为和1的分隔符，在reduce中进行分割，然后比对IP和目录，进行累加
mapper实现
#!/usr/bin/python
# _*_ coding:utf-8 _*_
#Filename:mapper_3_3.py
import sys
for line in sys.stdin:
line = line.strip()
if line.find('GET')!=-1:
words=line[:line.find(' ')]+'\t'+line[line.find('GET')+3:line.find('HTTP')]
# if line.find('POST')!=-1:
elif line.find('HEAD')!=-1:
words=line[:line.find(' ')]+'\t'+line[line.find('HEAD')+4:line.find('HTTP')]
elif line.find('POST')!=-1:
words=line[:line.find(' ')]+'\t'+line[line.find('POST')+4:line.find('HTTP')]
else:
words=''
words = filter(lambda word:word, words.split('\n'))
for word in words:
print'%s\@%s'%(word,1)

reduce实现
#!/usr/bin/python
#_*_ coding:utf-8 _*_
#Filename:reduce.py

from operator import itemgetter
import sys

word2count = {}

for line in sys.stdin:
line = line.strip()
word,count = line.split('\@',1)
try:
count = int(count)
word2count[word] = word2count.get(word,0)+count
except ValueError:
pass

sorted_word2count = sorted(word2count.items(),key=itemgetter(0))

for word,count in sorted_word2count:
print'%s\t%s'%(word,count)


---------------------------------------------------------------------------------------------------------------------------------
3- mapreduce使用python WordCount实例，使用python的迭代器和生成器改进mapper和reducer代码

mapper
#!/usr/bin/python
# _*_ coding:utf-8 _*_
#Filename:mapper_yield.py

import sys
def read_file(file):
for line in file:
yield line.split()

def main(separator='\t'):
data=read_file(sys.stdin)
for words in data:
for word in words:
print'%s%s%d'%(word,separator,1)

if __name__=='__main__':
main()

reduce
#!/usr/bin/python
#_*_ coding:utf-8 _*_
#Filename:reduce_yield.py

from operator import itemgetter
import sys
from itertools import groupby

def read_file(file,separator):
for line in file:
yield line.strip('').split(separator,1)

def main():
separator='\t'
data=read_file(sys.stdin,separator)
word2count = {}
for line in data:
# print line
word,count = line
try:
count = int(count)
word2count[word] = word2count.get(word,0)+count
except ValueError:
pass
sorted_word2count = sorted(word2count.items(),key=itemgetter(0))

for word,count in sorted_word2count:
print'%s%s%s'%(word,separator,count)

if __name__=='__main__':
main()

-----------------------------------------------------------------------------------------------------------------------------------

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mapreduce python编程实例的相关文章

华为以太网链路聚合Eth-Trunk实验

链路聚合Eth Trunk 什么是链路聚合 xff1f 原理基本术语聚合模式负载分担的逐流转发和逐包转发负载分担的延伸链路聚合实验一手工聚合链路聚合实验二 LACP STATIC聚合链路聚合实验的疑问思考补充 xff0c 三层Eth Tr
关于Linux 下的错误路由产生火星包的问题

关于linux下的错误路由产生火星包的问题错误原理 linux 下的route表 xff0c 不仅负责包的转发路径选择 xff0c 还负责检验包的来源的合理性 xff0c 比如 ip r default via 10 0 2 2 dev
配置SSH的对等性

在所有节点配置SSH的对等性在安装Oracle Real Application clusters之前必须先配置所有节点的SSH对等性因为在安装过程种Oracle Universal Installer 使用ssh和scp命令执行远程
apt-get下载安装本地包

一使用场景 xff1a Ubuntu系统 1 Computer A不能上网 xff0c 需通过Computer B将安装包下载后 xff0c 拷贝给Computer A进行本地安装前提是 xff0c 2台机器上的操作系统环境相同 2 也
sklearn专题六：聚类算法K-Means

目录 1 概述 1 1 无监督学习与聚类算法 1 2 sklearn中的聚类算法 2 KMeans 2 1 KMeans是如何工作的 2 2 簇内误差平方和的定义和解惑 2 3 KMeans算法的时间复杂度 3 sklearn cluste
查找某个导师（博导、硕导）所带学生的学位论文的步骤

怎么查找某个导师 xff08 博导硕导 xff09 所带学生的学位论文呢 xff1f 一般经过这几个步骤就能找到 xff1a 第一步 xff1a 在浏览器中输入网址https www cnki net xff0c 进入中国知网第二步 x
我的三色2016

2016年于我来讲是无疑是迄今为止最为多彩与丰富的一年 xff0c 在这一年里我完成了从象牙塔到职场的过渡 xff0c 经历过迷茫 xff0c 遭受过歧视 xff0c 遇到过挑战 xff0c 好在上帝虽然关闭了所有的门却为我打开了一道窗
图像处理之Haar特征

Haar like 特征是计算机视觉领域一种常用的特征描述算子也称为 Haar 特征 xff0c 这是因为 Haar like 是受到一维 haar 小波的启示而发明的所以称为类 Haar 特征 xff0c 后来又将 Haar like
任意大小汉字点阵字库（字模）的制作与生成单片机GUI/STemwin

1 首先介绍一下汉字点阵在汉字库中的地址计算公式 xff1a 汉字库种类繁多 xff0c 但都是按照区位的顺序排列的前一个字节为该汉字的区号 xff0c 后一个字节为该字的位号每一个区记录94个汉字 xff0c 位号则为该字在该区中
ubuntu下ifconfig找不到命令，packege ‘net-tools‘ has no installation candidate

PS xff1a 首先要将网络适配器设置为NAT模式刚用虚拟机安装完ubuntu后 xff0c 实用ifconfig提示找不到命令 xff1a 用sudo apt install net tools也提示错误 xff1a Package
caffe+opencv linux安装

有gpu http blog csdn net leijiezhang article details 53688157 仅CPU http blog csdn net u010402483 article details 51506616
Deep learning系列（十五）有监督和无监督训练

1 前言在学习深度学习的过程中 xff0c 主要参考了四份资料 xff1a 台湾大学的机器学习技法公开课 xff1b Andrew NG的深度学习教程 xff1b Li feifei的CNN教程 xff1b caffe官网的教程 xff1
c++ item

C 43 43 书单 xff1a 1 第一本基础好一些的 xff0c 可以看Stanley B Lippman的C 43 43 Primer xff0c 基础不太好的话 xff0c 可以看Stanley B Lippman的 Essent
链表基础知识总结

链表和数组作为算法中的两个基本数据结构 xff0c 在程序设计过程中经常用到尽管两种结构都可以用来存储一系列的数据 xff0c 但又各有各的特点数组的优势 xff0c 在于可以方便的遍历查找需要的数据在查询数组指定位置 xff08 如
关系型和非关系型数据库使用场景

面试 xff1a 你懂什么是分布式系统吗 xff1f Redis分布式锁都不会 xff1f gt gt gt 关系型数据库优点 SQL方便在多个表之间做非常复杂的数据查询事务支持安全性能高关系型数据库缺点不擅长大量数据的写入处理不擅
Dont't recreate the sequence! You would invalidate all independent objects and l

原文出处 xff1a https community oracle com message 4016489 4016489 Dont 39 t recreate the sequence You would invalidate all i
June 11th 模拟赛C T1 Sandcas Solution

空降题目处点我点我点我 Description FJ居住的城堡有N个城墙 1 lt 61 N lt 61 25 000 xff0c 编号为1到N xff0c 每个城墙的高度为M i 1 lt 61 M i lt 61 100 000 xf
树莓派3B安装64位系统

树莓派是一款微型计算机 xff0c 并且树莓派3B是目前树莓派家族中唯一一款采用64位处理器的产品但是树莓派官方提供的系统都是32位的 Linux操作系统厂商SUSE已经宣布专门为Raspberry Pi 3用户推出了一个64位Linux
winform中进行动态布局

在某些网页中 xff0c 对有些按钮进行选择后 xff0c 网页中的布局会增加或者减少 xff0c 无论增加还是减少 xff0c 都会按照顺序进行排序这个效果在winform中也是可以的 1 建立一个winform项目 2 拖动控件后 x
【排坑】 Ubuntu 16.04 修改 lightdm.conf 后图形界面崩溃，报错 the system is running in low-graphics mode

系统 Ubuntu 16 04 xff0c 英特尔最不值钱的复合显卡起因 xff1a 笔者想要用 docker 的 container 能显示出一次些基础的视觉效果 xff0c 类似于在 container 中跑 matplot 函数 x

随机推荐

Java 观察者模式详解

观察者模式是一种常见的设计模式 xff0c 也称作发布订阅模式它主要解决了对象之间的通知依赖关系问题在这种模式中 xff0c 一个对象 xff08 称作Subject xff09 维护着一个对象列表 xff0c 这些对象 xff08
解决Docker容器连接 Kafka 连接失败问题

提出问题近日助友 Docker 部署 Kafka 服务 xff0c 服务日志启动正常 xff0c 但客户端却无法连接往日曾踩过此坑 xff0c 然方法均源于博客 xff0c 其语焉不详 xff0c 不知为何不行 xff0c 亦不知为何行
Jenkins教程（七）实现 GitLab 提交/合并代码触发构建

楔子最近公司推行统一构建平台 xff08 基于 Jenkins 43 Kubernetes 插件创建 slave xff09 xff0c 原来部门自建的 Jenkins 不让用了迁移上统一构建平台的最大阻力是前端模块发布的问题 xff1
【问题记录】Java服务发起HTTPS请求报错sun.security.provider.certpath.SunCertPathBuilderException

问题报错今天上线了我开发的一个OAuth2单点登录客户端的实现 xff0c 在测试系统验证没问题 xff0c 到生产环境由于单点登录服务端HTTPS协议 xff0c 报错如下 xff1a I O error on POST request
【亲测可用】禁用AMQP配置中的明文身份验证机制-漏洞解决方法（RabbitMQ开启SSL附SpringBoot连接测试代码）

楔子近期公司程序被安全扫描出远程主机允许明文身份验证中风险漏洞 xff0c 查了下修复方案发现网上的都是把 RabbitMQ 的认证机制改了 xff0c 然后也没提供 Java 客户端连接测试结果 xff0c 底下全是登录失败的回帖
Amazon S3 对象存储Java API操作记录（Minio与S3 SDK两种实现）

缘起今年 2023年 2月的时候做了个适配Amazon S3对象存储接口的需求 xff0c 由于4月份自学考试临近 xff0c 一直在备考就拖着没总结记录下 xff0c 开发联调过程中也出现过一些奇葩的问题 xff0c 最近人刚从考试缓过
【问题解决】RabbitMQ启动出现epmd error for host xx.xx: nxdomain (non-existing domain)

问题描述 k8s 或普通容器或 Linux 部署的RabbitMQ启动时出现了 epmd error for host xx xx nxdomain non existing domain 错误 xff0c MQ无法启动成功其中 xx
MapReduce的编程开发——排序

文章目录前言一启动Hadoop二环境搭配三普通排序实验四二次排序实验五倒序索引实验总结前言本文主要是学习MapReduce的学习笔记 xff0c 对所学内容进行记录实验环境 xff1a 1 Linux Ubuntu 16
【问题解决】Kafka报错 Bootstrap broker x.x.x.x:9092 (id: -1 rack: null) disconnected

问题复现近日针对某一客户需求开发了一个需要使用Kafka的功能 xff0c 功能是什么暂且不论 xff0c 在本地虚机的Kafka连接一切正常遂放到测试服务器上验证功能 xff0c 以下是监听topic成功和警告报错 xff1a span
Ubuntu14.10登录界面隐藏其他用户登录窗口

上次装完MySQL后每次开机登录界面都会有一个mysql用户登录框在管理员用户下边感觉很碍眼记得上次在安装MySQL时就屏蔽了mysql用户登录 xff0c 可为何还会在登录界面显示比较纳闷了在网上找很多方法都没有用感觉千篇一律
Hadoop64位版本安装后遇到的警告处理

在使用hadoop的过程中 xff0c 会遇到一个警告 xff0c 内容如下 xff1a WARN util NativeCodeLoader Unable to load native hadoop library for your pl
【MFC基础教程】MFC 中常用类，宏，函数介绍

一常用类 CRect xff1a 用来表示矩形的类 xff0c 拥有四个成员变量 xff1a top left bottom right 分别表是左上角和右下角的坐标可以通过以下的方法构造 xff1a CRect int l int
从cas-overlay-template安装apereo cas 6.1.x并连接CAS客户端

一什么是单点登录简单点说单点登录的英文名称为Single Sign On xff0c 简写为SSO xff0c 它是一个用户认证的过程 xff0c 允许用户一次性进行认证之后 xff0c 就访问系统中不同的应用 xff1b 而不需要访
linux教程：[4]配置Tomcat开机启动

我们在linux下安装好tomcat之后 xff1b 经常是需要配置到开机启动的 xff1b 这样的话就不需要我们每次重启linux服务器之后自己在登陆运行startup sh文件启动tomcat了本次的演示环境是在centos7中完成的
用word2016 写CSDN 博客

在word2016 中点击文件 61 gt 共享 61 gt 发布至博客下面点击立即注册在这个里面选择其他 xff0c xff08 这里我说的是 CSDN 博客 xff09 http write blog csdn net xml
详解cocos2d帧率FPS

详解cocos2d帧率FPS 最近在使用coco2d js写一个游戏的时候需要将帧率实时显示出来于是搜索了一下获得FPS有下面几个方法 cc director getAnimationInterval cc director getS
Eclipse本地运行与远程提交MapReduce程序的步骤详解

1 下载eclipse插件此插件只是方便我们在eclipse上查看hdfs集群上的数据而已 1 1 下载对应版本的 hadoop eclipse plugin XXX jar 并将其复制到eclipse下的plugin的目录下 xff0c
sagalbot/vue-select 选中元素变动事件(:on-change 踩坑)

文章目录场景分析方案 amp amp 遇到的坑源码场景需要根据选中元素为依赖获取一个计算属性 array 此时computed不能满足分析官方文档的介绍 An optional callback function that is
客户需求VS最终软件交付

客户起初要求的样子 xff0c 和最终项目交付时的样子 xff0c 非常真实你永远不知道开发过程中有哪些或深或浅 xff0c 或近或远的弯弯绕绕在等着你回复干货获取精选干货视频教程回复加群加入疑难问题攻坚交流群回复 mat
mapreduce python编程实例

mapreduce python编程实例 1 mapreduce使用python WordCount实例 1 1 mapper函数使用 vi mapper py usr bin python coding utf 8 Filename ma

mapreduce python编程实例

mapreduce python编程实例 的相关文章

随机推荐

热门标签

mapreduce python编程实例的相关文章