导入文本文件：没有要从文件中解析的列

2024-07-04

我正在尝试从 sys.stdin 获取输入。这是hadoop 的map reducer 程序。输入文件为txt格式。数据集预览：

196 242 3   881250949
186 302 3   891717742
22  377 1   878887116
244 51  2   880606923
166 346 1   886397596
298 474 4   884182806
115 265 2   881171488
253 465 5   891628467
305 451 3   886324817
6   86  3   883603013
62  257 2   879372434
286 1014    5   879781125
200 222 5   876042340
210 40  3   891035994
224 29  3   888104457
303 785 3   879485318
122 387 5   879270459
194 274 2   879539794
291 1042    4   874834944

我一直在尝试的代码 -

import sys
df = pd.read_csv(sys.stdin,error_bad_lines=False)

我也尝试过delimiter = \t, header=False,defining column name似乎没有任何作用，我收到的错误是这个错误：

[root@sandbox lab]# cat /root/lab/u.data | python /root/lab/mid-1-mapper.py |python /root/lab/mid-1-reducer.py
Traceback (most recent call last):
  File "/root/lab/mid-1-reducer.py", line 8, in <module>
    df = pd.read_csv(sys.stdin,delimiter='\t')
  File "/opt/rh/python27/root/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 645, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "/opt/rh/python27/root/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 388, in _read
    parser = TextFileReader(filepath_or_buffer, **kwds)
  File "/opt/rh/python27/root/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 729, in __init__
    self._make_engine(self.engine)
  File "/opt/rh/python27/root/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 922, in _make_engine
    self._engine = CParserWrapper(self.f, **self.options)
  File "/opt/rh/python27/root/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 1389, in __init__
    self._reader = _parser.TextReader(src, **kwds)
  File "pandas/parser.pyx", line 538, in pandas.parser.TextReader.__cinit__ (pandas/parser.c:5896)
pandas.io.common.EmptyDataError: No columns to parse from file

但是，如果当我直接在 python 中尝试（而不是在 hadoop 中）时，它工作得很好。

我尝试查看 stackoverflow 帖子，其中一篇帖子建议尝试并排除。应用后，我会得到一个空文件。有人可以帮忙吗？谢谢

使用 try 和 except 只是让你在出现错误的情况下继续并处理它们。它不会神奇地修复你的错误。

read_csv期望csv文件，您的输入显然不是。快速浏览一下文档：

delim_whitespace : 布尔值，默认 False

指定是否将空格（例如“ ”或“ ”）用作分隔符。相当于设置 sep='+s'。如果此选项设置为 True，则不应为分隔符参数传递任何内容。

这似乎是正确的论点。使用

pandas.read_csv(filepath_or_buffer, delim_whitespace=True).

Using delimiter='\t'也应该有效，除非选项卡被展开（用空格替换）。因为我们无法真正判断，delim_whitespace似乎是更好的选择。

如果这没有帮助，只需打印出您的sys.stdin检查您是否正确传递文本。

编辑：我刚刚看到你用

cat /root/lab/u.data | python /root/lab/mid-1-mapper.py |python /root/lab/mid-1-reducer.py

这是故意的吗，这样mid-1-reducer.py处理输出mid-1-mapper.py。如果你想处理文件的内容u.data考虑读取文件而不是sys.stdin.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

hadoopstreaming

导入文本文件：没有要从文件中解析的列的相关文章

如何使用ast.NodeVisitor的简单示例？

有谁有一个使用 ast NodeVisitor 来遍历 Python 2 6 中的抽象语法树的简单示例吗我不清楚访问和 generic visit 之间的区别而且我找不到任何使用谷歌代码搜索或普通谷歌的示例 ast visit 当然除
导入文本文件：没有要从文件中解析的列

我正在尝试从 sys stdin 获取输入这是hadoop 的map reducer 程序输入文件为txt格式数据集预览 196 242 3 881250949 186 302 3 891717742 22 377 1 8788871
matlab的imregionalmax()和scipy.ndimage.filters.maximum_filter有什么区别

我需要找到图像的区域最大值以获得用于分水岭分割的前景标记我在 matlab 中看到使用该函数imregionalmax http www mathworks com help images ref imregionalmax html 由
从Python运行Scrapy

我正在尝试从 Python 运行 Scrapy 我正在查看这段代码 source http doc scrapy org en 0 16 topics practices html from twisted internet import
python 中的神经网络：决策/分类总是给出 0.5

首先我想说我是一个Python初学者对神经网络也是完全陌生的当我读到它时我非常兴奋并认为我从头开始设置了一些代码参见下面的代码但不知怎的我的代码无法正常工作我猜想存在一些重大错误在算法和编程中但我现在找不到他们所以在
如何在 Python 3 中使用 smtplib.sendmail() 对收件人姓名（而不是地址）中的国际字符进行编码？

我在 Python 3 程序中使用标准 smtplib sendmail 调用来发送电子邮件如下所示 smtp session sendmail The Sender lt email protected cdn cgi l email
ipython：如何设置终端宽度

当我使用ipython terminal并想要打印一个numpy ndarray它有很多列行会在大约 80 个字符处自动断行即行的宽度为 cca 80 个字符 z zeros 2 20 print z 据推测 ipython 预计我的终
从子列表中切片元素 - Python

我想从中返回数字 5 list 1 1 2 3 4 5 6 我以为这会起作用但事实并非如此 print list 1 1 1 它返回一个空列表它是索引 1 第二个列表和位置 1 列表中的第二个数字这不应该起作用吗您需要两个单独的操
使用 Python 在 Yandex Images 中反向搜索图像

我对自动化反向图像搜索感兴趣 Yandex 特别适合捕捞鲶鱼甚至比 Google 图片还要好因此请考虑以下 Python 代码 import requests import webbrowser try filePath C path
获取pygame中图像各个像素的颜色

如何获取传输到 pygame 表面的图像像素的颜色值使用 Surface get at 仅返回表面层的颜色而不返回其上位图传输的图像方法surface get at很好下面的示例显示了在没有 Alpha 通道的情况下位图传输图像时的
熊猫读_csv。如何忽略换行符之前的分隔符

我正在读取一个包含数值的文件 data pd read csv data dat sep header None 在文本文件中每行以空格结尾因此 pandas 等待不存在的值并在每行末尾添加一个 nan 例如 2 343 4 234
django value_list 外键中所有字段

我有一个类它有另一个类的外键 class MyEvent models Model msg models ForeignKey MyMessage event type models IntegerField choices EVENTS
包装 np.arrays __pow__ 方法

我只是重新审视我的一些代码以提高性能并遇到了一些奇怪的事情 a np linspace 10 1000 1000000 reshape 1000 1000 timeit np square a 100 loops best of 3 8
使用 python 将数据复制到 Vertica

I use python and vertica python图书馆到COPY数据到Vertica DB connection vertica python connect conn info vsql cur connection cur
模板内嵌套 for 循环

模型 py class Task models Model level models ForeignKey Level on delete models CASCADE todo models ForeignKey ToDo on dele
如何在 setup.py 中运行 Makefile？

我需要编译ICU http icu project org使用它自己的构建机制因此问题是我怎样才能运行一个Makefilesetup py 显然我只希望它在构建过程中运行而不是在安装时运行我通常使用的方法是覆盖有问题的命令 fro
将 LIVE SPEECH 与 Tkinter GUI 连接

我想将 pocketsphinx livespeech 与 Python tkinter GUI 连接起来这样 GUI 在前端可见而 Livespeech 在后端工作但是当我将 tkinter 代码与 livespeech 代码合并时
分组依据，在 pandas 中

select df id count distinct airports as num from df group by df id having count distinct airports gt 3 我正在尝试在 Python pan
在 Python 中访问 Firefox 3 cookie

我正在尝试制作一个 python 脚本该脚本将在 Firefox 中使用 cookie 访问网站如果 cookielib MozillaCookieJar 支持 Firefox 3 它就会工作有没有办法在 python 中访问 Fir
您使用哪种 IDE（如果有）构建 python GUI 项目？

是否有任何 IDE 如 VS 支持拖放来构建 python GUI 连接到数据库等尽管我是一个 emacs 爱好者但我发现使用 VS 创建 GUI 更容易仅对于 GUI 我发现 VisualWx http visualwx alter

随机推荐

SQL 查询提供与多个列匹配的不同结果

抱歉我无法为我的问题提供更好的标题因为我对 SQL 还很陌生我正在寻找一个可以解决以下问题的 SQL 查询字符串我们假设如下表 DOCUMENT ID TAG 1 tag1 1 tag2 1 tag3 2 tag2 3 tag1 3
在资源控制器内使用多个服务的最佳方法是什么？

我有一个调用三个服务的控制器 public class ProductController Autowired private AccountService accountService Autowired private ProcessS
从程序集中加载并执行代码而不锁定文件？

有没有办法从磁盘加载程序集并执行其中的代码而不将文件锁定在磁盘上我一直不明白为什么有必要锁定文件因为代码将加载到 RAM 中并进行 JIT 编译您正在寻找的称为卷影复制你必须创建一个新的AppDomain http msdn mic
调用spring Rest api时出现CORS Unauthorized 401错误

我的休息服务中没有 Spring Security 实现并且在尝试调用休息资源时遇到 CORS 401 未经授权的问题我对此很红 https www baeldung com spring security cors preflight
使用自定义 SSH 进行 Git 克隆，使用 GIT_SSH 错误

我正在尝试使用自定义 SSH 命令克隆 Git 存储库我设置SSH命令在GIT SSH环境中可变地运行 export GIT SSH usr bin ssh o StrictHostKeyChecking no i home me my
Liquid 模板语言中的宏

我正在使用 Jekyll 它使用 Liquid 模板语言我过去使用过 Jinja 模板它有一个概念macro http jinja pocoo org docs dev templates macros 只是一个命名函数 Liquid
在 WordPress 模板中将变量从一个页面发送到另一页面

我正在尝试将日期从一个 WordPress 模板表单传递到另一个为了简单起见我创建了两个模板并将它们与 WP 页面作为标准页面关联如下所示
列出具有指定 VID 和 PID 的 USB 设备，而不使用 Windows 驱动程序套件

有没有一种方法可以在 Windows 上找到具有指定 VID 和 PID 的 USB 设备而无需调用 WDK 函数这是郭彦超代码的简化版 unsigned index HDEVINFO hDevInfo SP DEVINFO DATA
在 Formik 中提交后如何重置/清空表单

这样我就有了我的表格我只是希望提交成功后它是空的我已经看到我应该使用enableReinitializing并手动更改值如下所示 this values content 但我不明白我可以把这个选项放在哪里
如何在 Spring Batch 中从 ItemReader 访问作业参数？

这是我的一部分job xml
从表中按组删除前 n 个元素

假设我有下表 t date 25 z d til 5 travel 5 car 5 plane 5 bus 5 cycle 5 scooter val 25 100 date travel val 2019 12 06 car 75 201
为什么 MSBuild 忽略我的 BeforePublish 目标？

我一定在这里遗漏了一些明显的东西但是我在 ASP NET MVC Web 项目的末尾有这个 csproj file
如何连接 Azure 存储以从 Blob 存储读取 .txt 文件

谁能告诉我如何从 Azure Blob 存储读取文本文件这很简单 string text CloudStorageAccount Parse
如何将 XML 文件直接写入 zip 存档？

在不使用第 3 方库的情况下使用 JAXB 直接将 XML 文件列表写入 zip 存档的正确方法是什么将所有 XML 文件写入一个目录然后压缩会更好吗正如其他人指出的那样您可以使用ZipOutputStream类来创建 ZIP 文件
如何确定Android设备的安全补丁级别？

如何使用 API 或其他机制确定 Android 设备的安全补丁级别我正在寻找相同的安全补丁信息可以通过单击手动找到Settings gt About设备上的菜单例如谷歌每月都会发布安全补丁2016 12 01 https sour
用随机图像填充表格

首先我的编码经验包括修改简单的脚本以在我的页面上工作其次我搜索并发现了几个类似的问题但无法完全解决它们我需要一些帮助来使用大约 40 张图像数组中的随机图像填充 3x3 表我目前有一个使用 backgroundImage 属性的
杰克逊没有认识到存在的领域

这是我的 JSON totalSize 46 done true records Name Wamu I Start Date c 2016 09 26T16 56 10 000 0000 Status c Completed Type c
在 MacOS 命令行上使用 Android Studio 内置 Java

这里有很多关于在 Mac 上安装 Java 以及让 Android Studio 使用正确版本的信息很多已经过时但是最近版本的 Android Studio 2 2 及更高版本提供了自己的 Java 对于大多数 Mac 用户来说没有
如何使用ast.NodeVisitor的简单示例？

有谁有一个使用 ast NodeVisitor 来遍历 Python 2 6 中的抽象语法树的简单示例吗我不清楚访问和 generic visit 之间的区别而且我找不到任何使用谷歌代码搜索或普通谷歌的示例 ast visit 当然除
导入文本文件：没有要从文件中解析的列

我正在尝试从 sys stdin 获取输入这是hadoop 的map reducer 程序输入文件为txt格式数据集预览 196 242 3 881250949 186 302 3 891717742 22 377 1 8788871

导入文本文件：没有要从文件中解析的列

导入文本文件：没有要从文件中解析的列 的相关文章

随机推荐

热门标签

导入文本文件：没有要从文件中解析的列的相关文章