在Python中使用Hadoop处理大型csv文件

2024-01-05

我有一个巨大的 CSV 文件，想在 Amazon EMR (python) 上使用 Hadoop MapReduce 进行处理。

该文件有 7 个字段，但是我只查看date and quantity field.

 "date" "receiptId" "productId" "quantity"  "price" "posId" "cashierId"

首先，我的mapper.py

import sys

def main(argv):
    line = sys.stdin.readline()
    try:
        while line:
            list = line.split('\t')

            #If date meets criteria, add quantity to express key
                if int(list[0][11:13])>=17 and int(list[0][11:13])<=19:
                    print '%s\t%s' % ("Express", int(list[3]))
            #Else, add quantity to non-express key
                else:
                    print '%s\t%s' % ("Non-express", int(list[3]))

            line =  sys.stdin.readline()
except "end of file":
        return None
if __name__ == "__main__":
        main(sys.argv)

对于减速器，我将使用流命令：aggregate。

问题：

我的代码对吗？我在 Amazon EMR 中运行它，但输出为空。
所以我的最终结果应该是：快递，XXX和非快递，YYY。我可以让它在返回结果之前进行除法运算吗？只是 XXX/YYY 的结果。我应该把这段代码放在哪里？减速机？？
另外，这是一个巨大的 CSV 文件，那么映射会将其分成几个分区吗？或者我是否需要显式调用 FileSplit？如果是这样，我该怎么做？

在这里回答我自己的问题！

代码错误。如果您使用聚合库来减少，您的输出不会遵循通常的键值对。它需要一个“前缀”。
```
if int(list[0][11:13])>=17 and int(list[0][11:13])<=19:
    #This is the correct way of printing for aggregate library
    #Print all as a string.
    print  "LongValueSum:" + "Express" + "\t" + list[3]
```
其他可用的“前缀”有：DoubleValueSum、LongValueMax、LongValueMin、StringValueMax、StringValueMin、UniqValueCount、ValueHistogram。欲了解更多信息，请看这里http://hadoop.apache.org/common/docs/r0.15.2/api/org/apache/hadoop/mapred/lib/aggregate/package-summary.html http://hadoop.apache.org/common/docs/r0.15.2/api/org/apache/hadoop/mapred/lib/aggregate/package-summary.html.
是的，如果您想做的不仅仅是基本总和、最小值、最大值或计数，您需要编写自己的减速器。
我还没有答案。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Hadoop

amazonwebservices

MapReduce

在Python中使用Hadoop处理大型csv文件的相关文章

如何使用 pyinstaller 包含文件？

我也使用 tkinter 使用 python 3 7 编写了一个程序由于我使用的是外部图片因此当我将所有内容编译为一个 exe 时我需要包含它们我试过做 add data bg png files 但我仍然收到此错误 tkinter
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以

随机推荐

是否保证 LINQ 从 XDocument 读取项目的顺序？

因此我正在做的是使用 xml 文档来确定数据库更新需要运行某些 SQL 脚本的顺序 XML 遵循此格式
Uvicorn 中使用 FastAPI 进行信号处理

我有一个应用程序使用Uvicorn with FastAPI 我还打开了一些连接例如MongoDB 一旦出现某些信号我想优雅地关闭这些连接 SIGINT SIGTERM and SIGKILL My server py file imp
Javascript 正则表达式 - 删除除分号之外的所有特殊字符

在javascript中如何从字符串中删除除分号之外的所有特殊字符示例字符串 ABC D A b c Qwerty 应该返回 ABCDAbc Qwerty 您可以使用正则表达式删除任何不是字母字符或分号的内容如下所示 A Za z g
模块化和面向对象编程之间的最大区别是什么？

面向对象的程序通常包含不同类型的对象每个对象对应于一种特定类型的复杂数据管理或者可能是现实世界的对象或概念例如银行帐户曲棍球运动员或推土机模块化编程也称为自顶向下设计和逐步设计细化是一种软件设计技术强调分离将
发布版本中的错误在调试模式下不存在的常见原因

仅在发布编译模式下出现但在调试模式下不会出现的错误和异常程序行为的典型原因是什么很多时候在 C 的调试模式下所有变量都初始化为 null 而在发布模式下除非明确说明否则不会发生同样的情况检查是否有任何调试宏和未初始化的变量你的
在Rails中，我应该启用serve_static_assets吗？

我目前正在使用 Apache 代理到 Thin 使用这个article http articles slicehost com 2008 5 6 ubuntu hardy apache rails and thin 我的静态资源都不起作用
解决 android studio 中的 gradle 依赖问题？

我正在尝试添加一个样式化的进度条https android arsenal com details 1 1375 https android arsenal com details 1 1375 那里说将特定存储库添加到您的构建文件中 r
iOS 9 和 Swift 2 升级后，Facebook SDK 登录时出现“以“null”打开此页面”模式

我正在将项目更新到 Swift 2 和 iOS 9 我正在做的项目之一严重依赖 Facebook 的 SDK 我用它来登录获取用户信息等在更新之前一旦您登录 Safari 就会将您直接重定向到该应用程序现在我得到一个有趣的小模态显
静态分析警告是否会使 CI 构建失败？

我们的团队正在研究项目中静态分析的各种选项并且对于我们是否希望我们的持续集成构建因静态分析的警告而失败有不同的意见反对构建失败的论点是规则中经常存在例外情况而试图绕过这些例外只是为了使构建成功会降低生产力更好的方法是在构建时生成报
如何使文本输入不可编辑？

所以我有一个文本输入
使用 Guava 进行缓存

哪些 Guava 类适合线程安全缓存我使用组合键它是动态构建的所以 softKeys 没有意义对吧我在某处看到 ConcurentLinkedHashMap 这是要走的路吗它已经在最近的版本中了吗抱歉提问方式很混乱 Upda
如何在 CodeIgniter 表单验证中使用 Bootstrap 错误样式？

我的代码有一点问题我正在研究 bootstrap CSS 我对这个框架感到非常惊讶这就是为什么我决定研究这个我对 CSS 的了解确实不够但我明白一点我正在创建一个表单如果用户名或密码错误我希望收到一条验证消息我需要进行验证
如何在我的应用程序中使用 UIKit 本地化字符串

我们正在构建一款 iOS 游戏我们公司需要取消按钮UIAlertView应始终根据用户的设备语言进行本地化看起来UIKit框架中有这样一个字符串我如何在我自己的应用程序中访问它或者还有其他方法可以创建带有本地化取消按钮的 UIAl
SQL 手机号码验证

我有我的 SQL 数据库我想在其中过滤掉所有有效的手机号码我目前使用如下 WHERE pn PhoneNumber LIKE 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 OR pn Phone
如何仅为测试源添加 Scala 编译器插件

是否可以仅在编译测试源时添加Scala编译器插件当通过调用 SBT 添加编译器插件时addCompilerPlugin然后添加库依赖项相关方法有 Transforms dependency to be in the auto compi
jQuery Offset 返回负值

我有一个像下面这样的场景在我的用户界面中我将有一个文本框如果我在文本框中输入了数字我需要向下滚动到相应的页码 In Dom 我将有一些带有各自 id 的 div 如果用户输入页码为 5 我将检查 dom 中的第 5 个 div 偏移
在浏览器中流式传输 Pdf 时如何设置文件名？

不确定如何确切地表达这个问题所以欢迎编辑无论如何就这样吧我目前使用 Crystal Reports 生成 Pdfs 并将输出流式传输给用户我的代码如下所示 System IO MemoryStream stream new Sys
Cmake 无法找到 Python 库

出现此错误 sudo unable to resolve host coderw ll Could NOT find PythonLibs missing PYTHON LIBRARIES PYTHON INCLUDE DIRS CMake
升级到 R 2.15.2 无法加载 stats 包

运行 Ubuntu 12 04 今天终于从 2 12 升级到 2 15 2 当我启动 R 时出现此错误 Error in dyn load file DLLpath DLLpath unable to load shared object
在Python中使用Hadoop处理大型csv文件

我有一个巨大的 CSV 文件想在 Amazon EMR python 上使用 Hadoop MapReduce 进行处理该文件有 7 个字段但是我只查看date and quantity field date receiptId pr

在Python中使用Hadoop处理大型csv文件

在Python中使用Hadoop处理大型csv文件 的相关文章

随机推荐

热门标签

在Python中使用Hadoop处理大型csv文件的相关文章