如何使用pyspark从HDFS读取docx/pdf文件？

2024-03-26

我想使用 pyspark 从 Hadoop 文件系统读取 DOCX/PDF 文件，目前我正在使用 pandas API。但在 pandas 中我们有一些限制，我们只能读取 CSV、JSON、XLSX 和 HDF5。它不支持任何其他格式。目前我的代码是：

import pandas as pd
from pyspark import SparkContext, SparkConf
from hdfs import InsecureClient

conf = SparkConf().setAppName("Random")
sc = SparkContext(conf = conf)

client_hdfs = InsecureClient('http://192.00.00.30:50070')
with client_hdfs.read('/user/user.name/sample.csv', encoding = 'utf-8') as reader:
  df = pd.read_csv(reader,index_col=0)
  print df

我可以使用上面的代码读取 CSV，还有其他 API 可以解决 DOC/PDF 的这个问题吗？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

PySpark

HDFS

如何使用pyspark从HDFS读取docx/pdf文件？的相关文章

Python 是否有与 PHP 函数 htmlspecialchars() 等效的函数？

Python 中是否有与 PHP 函数 htmlspecialchars 类似或等效的函数到目前为止我发现的最接近的是htmlentitydefs entitydefs 我所知道的最接近的是cgi escape http docs pyt
python 函数中的任意数量的参数

我想学习如何在 python 函数中传递任意数量的参数所以我以递归方式编写了一个简单的 sum 函数如下所示 def mySum args if len args 1 return args 0 else return args 1 m
Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误

我正在尝试读取一些 BigQuery 数据 ID my project mydatabase mytable 原始名称受保护来自用户管理的 Jupyter Notebook 实例内部Dataproc https cloud google
Python 列联表

作为我正在编写的项目的一部分我正在生成很多很多列联表工作流程是获取具有连续浮点行的大型数据数组并通过分箱将其转换为离散整数值例如结果行的值为 0 9 将两行切片为向量 X 和 Y 并生成列联表 https en wikipe
Python 中函数未定义错误

我试图在 python 中定义一个基本函数但当我运行一个简单的测试程序时我总是收到以下错误 gt gt gt pyth test 1 2 Traceback most recent call last File
我无法在 docker 中安装 opencv-contrib-python

我尝试安装opencv contrib python但我无法让它在 docker 上工作它说找不到满足 opencv contrib python 要求的版本 I tried pip install opencv contrib pyth
没有名为“_pywrap_tensorflow_internal”的模块

在尝试验证tensorflow gpu的安装时在尝试执行 import tensorflow as tf 时出现ImportError 我在 Windows 7 上使用 Quadro K620 Tensorflow 是使用 pip 安装的
尝试导入 cv2(opencv-python) 包时出错

我正在尝试使用 cv2 opencv python 包访问我的网络摄像头当我尝试导入它时出现此错误 Traceback most recent call last File server py line 6 in
如何将目录结构解析为字典？

我有目录结构列表例如 a b a b c a b c d a b c e a b c f g a b c f h a b c f i 我想将它转换成像树结构一样的字典 a b c d None e None f g None h None
Django 模型选择不会因无效选择而引发错误

我在 Django 中有一个带有选择字段的对象 class CustomFieldType models Model STRING STRING DATE DATE BOOLEAN BOOLEAN NUMERIC NUMERIC EMAIL
无需重新计算即可获取字典键哈希

有没有办法从字典中提取现有的密钥哈希而无需再次重新计算它们暴露它们并因此通过哈希而不是密钥访问字典会有什么风险我认为 Python 的字典对象没有任何公共 API 可以让您查看存储其对象的哈希值您无法在 Python 代码中直接通过
跳过一个端点的 Flask 日志记录？

我有一个 Python Flask 应用程序有一项运行状况检查经常访问一个端点但我不想在日志中看到它如何仅禁用一个 GET 端点的日志记录而保留其他所有端点的日志记录艾蒂安贝尔萨克为我指明了正确的方向这就是我的实现方式 fro
如果我使用不同数量的核心，XGBoost 会产生相同的结果吗？

我在两台机器上安装了完全相同版本的 XGBoost 0 4 两台机器之间的唯一区别是 RAM 和内核数量 8 与 16 使用完全相同的数据我无法重现相同的结果它们略有不同小数点后第四第五位种子保留为默认值它是高度特定于实现的但
如何在QTextEdit中自动滚动文本（动画效果）？

我想问一下如何让QTextEdit中的文字滚动达到动画效果动画效果应该类似于视频中所示的效果 https www youtube com watch v MyeuGdXv4XM https www youtube com watch v
在 Python 中规范化数字列表

我需要对值列表进行标准化以适应概率分布即在 0 0 和 1 0 之间我明白how标准化但很好奇 Python 是否有一个函数可以自动执行此操作我想从 raw 0 07 0 14 0 07 to normed 0 25 0 50 0
减小散点图的文件大小

我目前正在尝试减小散点图的文件大小我的代码如下所示 plt scatter a1 b1 plt savefig test ps 其中 a1 b1 是大小为 400 000 左右的数组它给出的文件大小为 7 8MB 我尝试过添加 plt
加载所有腌制对象[重复]

这个问题在这里已经有答案了 import pickle ListNames Name1 City1 Email1 Name2 City2 Number2 ListNumbers 1 2 3 4 5 6 7 8 with open TestP
如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中？

我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul
将行追加到 Pandas DataFrame 添加 0 列

我正在创建一个 Pandas DataFrame 来存储数据不幸的是我无法提前知道我将拥有的数据行数所以我的方法如下首先我声明一个空的 DataFrame df DataFrame columns col1 col2 然后我附加
根据 pandas 中其他数据帧的值更改一个数据帧的值

我有一个数据框 df1 id value 1 100 2 100 3 100 4 100 5 100 我有另一个数据框 df2 id value 2 50 5 30 我想用 df1 中的值替换 df2 中 id 的这些值最终修改后的df1

随机推荐

如何使用javascript下载网页[重复]

这个问题在这里已经有答案了可能的重复 Javascript 可以读取任何网页的源代码吗 https stackoverflow com questions 680562 can javascript read the source of
打印 C 字符串（UTF-8）时的 NSLog() 与 printf()

我注意到如果我尝试使用格式说明符 s 打印包含 UTF 8 字符串表示形式的字节数组 printf 说得对但是NSLog 得到它乱码即每个字节按原样打印因此例如被打印为2个字符这很奇怪因为我一直认为NSLog 只是print
如何根据条件 $push 字段？

我试图在 MongoDB 聚合管道的 group 阶段有条件地将字段推入数组本质上我有包含用户名的文档以及他们执行的一系列操作如果我将用户操作分组如下 group id name user name actions push acti
rows_merged在compactionhistory中意味着什么？

当我发出 nodetool compactionhistory I get compacted at bytes in bytes out rows merged 1404936947592 8096 7211 1 3 3 1 什么是 1
允许在 ckeditor 中嵌入 oembed 标签

我想将 oembed 标签放入 TYPO3 的 ckeditor RTE 中这样我想将像 Instagram Facebook 或 Twitter 这样的社交帖子放入一些新闻文章中在一些文本的中间为此我激活了 ckeditor 的嵌
快速连续旋转动画不那么连续

这是我的代码目的是连续旋转名为 swirls l 的 UIImageView 但是每次旋转开始结束之间都会有一个小暂停我已经浏览了每一个动画教程但无法弄清楚错误是什么 let fullRotation CGFloat M PI 2
库中是否可以有 SyncAdapter？

我正在开发一个将由多个应用程序使用的库图书馆需要进行网络同步我已经创建了一个存根提供商和帐户如此处所述 http developer android com training sync adapters index html 问题是
MongoDB 查询注释以及用户信息

我正在使用 nodejs 和 mongod 不是 mongoose 创建一个应用程序我有一个问题让我头痛了几天有人请建议一个方法我有一个像这样的 mongodb 设计 post id ObjectId picture some url
Django - 使用 ManyToManyField 进行反向查找

我正在尝试遵循 django 文档中的代码 class Person models Model name models CharField max length 128 def unicode self return self name c
相当于 float128

如何使用等效的 float128在Python中我应该使用什么精度decimal getcontext 我的意思是精度是以小数位还是位指定的 from decimal import getcontext prec 34 or 128 是
如何在 Selenium Python 中设置 Chrome 的首选项

我可以如下设置 Firefox 的首选项 set preference profile set preference set preference network http response timeout 30 set preferenc
如何为特定类别自定义 AutoFixture 行为

我需要启用 AutoFixture 来创建具有循环引用的类型实例来自第三方提供的 API 为此我可以删除默认的ThrowingRecursionBehavior如下所示 public class RecursiveObjectCusto
Backbone JS 模型和集合 URL

如果我有一个名为 Book 的模型和一个名为 Library 的集合定义如下 Book app Book Backbone Model extend defaults title No title author Unknown Libra
c - realloc() 在 Windows 7 中成功，但在 Windows XP 中失败，为什么？

所以我的这段代码有以下内容realloc block char ptr NULL void realloc ptr unsigned int new size void temp NULL temp realloc ptr new size
从 TFS 获取文件更改历史记录以实现自定义“责备”异常行为

我正在尝试采取某种方法来确定当我们的应用程序在工作中抛出异常时该责备谁当然这可能是我造成的但我可以接受但要做到这一点我需要 TFS 中文件的历史记录以便我可以检查谁最后在异常行处进行了更改当然它并不总是在插入错误更改的
使用 R 传递多个搜索请求来抓取表

我尝试使用名字和姓氏在网站上进行多次搜索 https npiregistry cms hhs gov registry https npiregistry cms hhs gov registry 然后创建输出的数据框我发现这与中描述的类
VS 2008 中“添加到观看”的键盘快捷键

是否有任何键盘快捷键可以添加突出显示的变量以在 VS IDE 中观看右键单击并在很长的下拉菜单中选择添加到观看选项需要一些时间这很烦人谢谢苏雷什默认情况下不是您可以添加一项工具选项环境键盘并在显示命令框中输入 w
如何使用 Commons Exec 将命令的输出捕获为字符串？

Commons exec 提供了一个 PumpStreamHandler 它将标准输出重定向到 Java 进程的标准输出如何将命令的输出捕获到字符串中他就是我找到的 import java io ByteArrayOutputStrea
大多数为 emacs 开发的 Magit/github 扩展，用于拉取请求

我对拉取请求编辑问题并将它们与提交绑定以及其他我通常必须使用的东西特别感兴趣命令行上的集线器 https github com github hub为了然而我已经开始使用 Magit 并且非常喜欢它的键绑定和通用界面这部分我也想留在
如何使用pyspark从HDFS读取docx/pdf文件？

我想使用 pyspark 从 Hadoop 文件系统读取 DOCX PDF 文件目前我正在使用 pandas API 但在 pandas 中我们有一些限制我们只能读取 CSV JSON XLSX 和 HDF5 它不支持任何其他格式目前

如何使用pyspark从HDFS读取docx/pdf文件？

如何使用pyspark从HDFS读取docx/pdf文件？ 的相关文章

随机推荐

热门标签

如何使用pyspark从HDFS读取docx/pdf文件？的相关文章