在python中分隔克拉A

2023-12-13

我有以下形式的数据：

37101000ssd48800^A1420asd938987^A2011-09-10^A18:47:50.000^A99.00^A1^A0^A
37101000sd48801^A44557asd03082^A2011-09-06^A13:24:58.000^A42.01^A1^A0^A

所以首先我从字面上理解并尝试：

line = line.split("^A")

and also

line = line.split("\\u001")

所以，问题是：

如果我这样做，第一种方法适用于我的本地计算机：

cat input.txt | python mapper.py

它在本地运行良好（input.txt是上面的数据），但在hadoop流集群上失败。

有人告诉我我应该使用"\\u001"作为分隔符，但这在我的本地计算机或集群上也不起作用。

对于 hadoop 人员：

如果我使用以下命令在本地调试它：

cat input.txt | python mapper.py | sort | python reducer.py

如果我使用的话，这运行得很好"^A"作为本地分隔符，但在集群上运行时出现错误，并且错误代码也没有太大帮助......

关于如何调试这个有什么建议吗？
Thanks

如果原始数据使用 control-A 作为分隔符，并且它只是被打印为^A无论您使用什么方式列出数据，您都有两种选择：

将您使用的任何列表数据通过管道传输到使用的 Python 脚本中split('^A').
只需使用split('\u001')根据实际控制 A 值进行拆分。

后者几乎总是您真正想要的。这对你不起作用的原因是你写了split('\\u001')，转义反斜杠，因此您要分割文字字符串\u001而不是控制-A。

如果原始数据确实有^A（插入符号后跟A) 作为分隔符，只需使用split('^A').

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Hadoop

hadoopstreaming

在python中分隔克拉A 的相关文章

Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

SQL / MySQL - 按列长度排序

在 MySQL 中有没有办法按列的长度字符对结果进行排序例如 myColumn lor lorem lorem ip lorem ips lorem ipsum 我想首先按最小的列长度 lor 对结果进行排序然后以最大的列长度 l
为什么析构函数挂起

下面的代码工作正常但是当我启用p b in GetValue 代码失败调试断言失败为什么 class A int p public A p nullptr A if p nullptr delete p void GetValue
如何为 json 负载定义 swagger 注释

如何为此示例定义 swagger 注释 API TenantConfiguration 作为 json 负载获取 Consumes application json application xml POST public Message c
本地主机上跨子域的用户身份验证

我正在我的本地主机上构建一个应用程序当我通过一个子域例如 sub localhost 登录时我需要在应用程序的所有其他子域例如 sub2 localhost sub3 localhost 中使用 Auth 访问该登录用户我将其更改
Pandas 风格：在整行上绘制边框，包括多索引

我在 jupyter 笔记本中使用 pandas 样式来强调此数据框中子组之间的边界从技术上讲在每个更改的多重索引处绘制边框但忽略最低级别 some sample df with multiindex res np repeat re
wordnet getDict() 找不到 Wordnet 词典

当使用以下代码使用 WordNet 中的 Lemmatizer 算法时 gt initDict C Program Files x86 WordNet 2 1 dict 1 TRUE if initDict C Program Files
在 Python 中将多字节字符转换为 7 位 ASCII

我正在通过 Python 脚本下载并解析网页我需要它被编码为 7 位 ASCII 以便进一步处理我正在使用请求库 http docs python requests org en master 在一个 virtualenv 基于 U
如何在 ListView 中访问 WebView 的 NavigateToString 属性

我有一个ListView除其他外其中包含WebView 当一个ListViewItem在此列表中被选中我想将 HTML 绑定到WebView通过NavigateToString方法 WebView 需要位于绑定列表中因为它绑定到项目列
将本地 PDF 文件加载到 WebView 中

我正在尝试将以下功能放入我正在编写的 iOS 应用程序中在 XCode 中的项目的资源文件夹中发送一组 PDF 将 PDF 复制到应用程序目录在网络视图中打开 PDF 据我所知前两个步骤工作正常我在复制操作后使用 FileManag
使用 WPF WriteableBitmap.BackBuffer 绘制线条

您是否知道任何库提供使用 WPF WriteableBitmap 和理想情况下 BackBuffer 绘制简单形状线条和可选的其他形状的方法我知道有一个针对 silverlight 的 WriteableBitmapEx 项目但是有
如何使用 VBA 代码添加新电子表格

我正在创建一个宏宏的部分功能是让 VBA 创建一个新的电子表格由于发行的性质名称将会改变我需要向此电子表格添加代码无论如何我可以做到这一点吗乔克已经解释了它是如何工作的我会更进一步添加工作表的语法是 expression A
/YYYY/MM/Title-Slug URL 结构与Friendly_Id 解决方案在#edit 上阻塞

根据我得到的指导先前的问题在解决我的实现 YYYY MM Slug URL 结构的原始问题我希望得到一些帮助来解决我在尝试编辑帖子时收到的错误没有路由匹配 PATCH blog 2015 09 example post blog 201
如何在android jdk中动态地用ImageView填充TableLayout？

I ve a TableLayout我的元素main xml
ajax文件上传

我正在努力在不重新加载页面的情况下上传处理和显示文件我该如何使用 jquery 将文件正确发布到服务器
AJAX：如何在单击按钮时更改客户端和服务器端的值？

在接下来的SSCCE中我有一个字符串其中包含三个的 HTMLdivs I add a style display none 归因于所有div除了第一个之外我给所有的按钮添加了一个按钮divs除了最后一个并添加一个JSonclick事
如何在8086汇编中生成随机数？ [复制]

这个问题在这里已经有答案了我想知道是否有使用汇编生成随机数的例程或指令在 8086 上任何帮助将不胜感激最常见的方法是使用时间戳在 32 位模式下可以通过以下方式完成rdtsc指令在16位模式下使用BIOS中断1A的功能0 因
如何对多维字典中的值求和？

通常我会使用 sum dict A values 来对字典中带有键 A 的所有值求和然而在这种情况下我想要求和的不是主键的所有值而是辅助子键具有特定名称的所有值让我在下面展示一个简化的例子 dict A val1 3 v
如何在 SwiftUI ForEach 内容中将多个按钮操作分开？

我有一个带有复选框标题和计时器图标的项目列表复选框是一个按钮计时器图标是一个具有与其关联的独特操作的按钮但是如果我点击单元格内的任何位置它会同时触发两个按钮操作它们的目的是彼此独立运行以及单元中的水龙头独立运行如何修改以下代
使用布尔掩码有效地将 numpy 数组的元素归零

所以我创建了一个超慢的版本 arr np arange 3 9 reshape 3 9 print arr to black np random choice a False True size 9 for i j in enumerate
在python中分隔克拉A

我有以下形式的数据 37101000ssd48800 A1420asd938987 A2011 09 10 A18 47 50 000 A99 00 A1 A0 A 37101000sd48801 A44557asd03082 A2011

热门标签