PySpark java.io.IOException：方案没有文件系统：https

2023-12-08

我正在使用本地窗口并尝试加载XML在 python 上使用以下代码的文件，我遇到了这个错误，有谁知道如何解决它，

这是代码

df1 = sqlContext.read.format("xml").options(rowTag="IRS990EZ").load("https://irs-form-990.s3.amazonaws.com/201611339349202661_public.xml")

这就是错误

Py4JJavaError                             Traceback (most recent call last)
<ipython-input-7-4832eb48a4aa> in <module>()
----> 1 df1 = sqlContext.read.format("xml").options(rowTag="IRS990EZ").load("https://irs-form-990.s3.amazonaws.com/201611339349202661_public.xml")

C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python\pyspark\sql\readwriter.py in load(self, path, format, schema, **options)
    157         self.options(**options)
    158         if isinstance(path, basestring):
--> 159             return self._df(self._jreader.load(path))
    160         elif path is not None:
    161             if type(path) != list:

C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python\lib\py4j-0.10.4-src.zip\py4j\java_gateway.py in __call__(self, *args)
   1131         answer = self.gateway_client.send_command(command)
   1132         return_value = get_return_value(
-> 1133             answer, self.gateway_client, self.target_id, self.name)
   1134 
   1135         for temp_arg in temp_args:

C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python\pyspark\sql\utils.py in deco(*a, **kw)
     61     def deco(*a, **kw):
     62         try:
---> 63             return f(*a, **kw)
     64         except py4j.protocol.Py4JJavaError as e:
     65             s = e.java_exception.toString()

C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python\lib\py4j-0.10.4-src.zip\py4j\protocol.py in get_return_value(answer, gateway_client, target_id, name)
    317                 raise Py4JJavaError(
    318                     "An error occurred while calling {0}{1}{2}.\n".
--> 319                     format(target_id, ".", name), value)
    320             else:
    321                 raise Py4JError(

Py4JJavaError: An error occurred while calling o38.load.
: java.io.IOException: No FileSystem for scheme: https
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.setInputPaths(FileInputFormat.java:500)
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.setInputPaths(FileInputFormat.java:469)
    at org.apache.spark.SparkContext$$anonfun$newAPIHadoopFile$2.apply(SparkContext.scala:1160)
    at org.apache.spark.SparkContext$$anonfun$newAPIHadoopFile$2.apply(SparkContext.scala:1148)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
    at org.apache.spark.SparkContext.withScope(SparkContext.scala:701)
    at org.apache.spark.SparkContext.newAPIHadoopFile(SparkContext.scala:1148)
    at com.databricks.spark.xml.util.XmlFile$.withCharset(XmlFile.scala:46)
    at com.databricks.spark.xml.DefaultSource$$anonfun$createRelation$1.apply(DefaultSource.scala:62)
    at com.databricks.spark.xml.DefaultSource$$anonfun$createRelation$1.apply(DefaultSource.scala:62)
    at com.databricks.spark.xml.XmlRelation$$anonfun$1.apply(XmlRelation.scala:47)
    at com.databricks.spark.xml.XmlRelation$$anonfun$1.apply(XmlRelation.scala:46)
    at scala.Option.getOrElse(Option.scala:121)
    at com.databricks.spark.xml.XmlRelation.<init>(XmlRelation.scala:45)
    at com.databricks.spark.xml.DefaultSource.createRelation(DefaultSource.scala:65)
    at com.databricks.spark.xml.DefaultSource.createRelation(DefaultSource.scala:43)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:306)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:156)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
    at java.lang.reflect.Method.invoke(Unknown Source)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:280)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.lang.Thread.run(Unknown Source)

不知何故 pyspark 无法加载 http 或 https，我的一位同事找到了这个问题的答案，所以这里是解决方案，

在创建spark上下文和sql上下文之前我们需要加载这两行代码

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.11:0.4.1 pyspark-shell'

创建sparkcontext和sqlcontext后sc = pyspark.SparkContext.getOrCreate and sqlContext = SQLContext(sc)

使用以下命令将 http 或 https url 添加到 sc 中sc.addFile(url)

Data_XMLFile = sqlContext.read.format("xml").options(rowTag="anytaghere").load(pyspark.SparkFiles.get("*_public.xml")).coalesce(10).cache()

这个解决方案对我有用

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

apachesparksql

PySpark java.io.IOException：方案没有文件系统：https 的相关文章

如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
PySpark 中别名方法的用途是什么？

在用 Python 学习 Spark 时我很难理解其目的alias方法及其用途这文档 http spark apache org docs latest api python pyspark sql html显示它被用来创建现有的副本D
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
Pyspark：相当于 np.where [重复]

这个问题在这里已经有答案了这个操作在 Pyspark 中相当于什么 import pandas as pd import numpy as np df pd DataFrame Type list ABBC Set list ZZXY d
Spark 数据帧：根据另一列的值提取一列

我有一个包含带有连接价目表的交易的数据框 paid currency EUR USD GBP 49 5 EUR 99 79 69 客户已支付 49 5 欧元如货币列中所示我现在想将支付的价格与价目表中的价格进行比较因此我需要根据
使用空/空字段值创建新的数据框

我正在从现有数据帧创建一个新数据帧但需要在这个新 DF 中添加新列下面代码中的 field1 我该怎么做工作示例代码示例将不胜感激 val edwDf omniDataFrame withColumn field1 callUDF v
如何在某些匹配条件下进行LEFT ANTI连接

我有两个表一个是具有一对 ID PC1 和 P2 的核心数据和一些 blob 数据 P3 另一条是前表中PC1的黑名单数据我将第一个表称为 in df 第二个表称为 blacklist df 我想要做的是从 in df 中删除行只要
Python / Pyspark - 计数 NULL、空和 NaN

我想计算列中的 NULL 空和 NaN 值我尝试过这样的 df filter df ID df ID isNull df ID isnan count 但我总是收到此错误消息 TypeError Column object is not
在 PySpark 中将结构数组扩展为列

我有一个来自 Google Analytics 的 Spark 数据框如下所示 id customDimensions Array
通过Listener获取Spark thrift服务器查询中读取的行数

我正在尝试为我们的 ST 服务器构建一个监控系统到目前为止诸如记录查询检索的行红色和花费的时间之类的事情都很好我已经实现了一个自定义侦听器我能够毫无问题地检索查询和时间侦听SparkListenerSQLExecutionSt
为什么 Apache Spark 会读取嵌套结构中不必要的 Parquet 列？

我的团队正在构建一个 ETL 流程以使用 Spark 将原始分隔文本文件加载到基于 Parquet 的数据湖中 Parquet 列存储的承诺之一是查询将仅读取必要的列条带但我们看到意外的列被读取以获取嵌套模式结构为了进行演示下
如何将参数传递给用户定义函数？

我有一个用户定义的函数 calc udf calculate FloatType param1 A result df withColumn col1 calc col type col pos groupBy pk sum events
Spark sql 每组前 n 个

我怎样才能获得每组的前n名比如说前10名或前3名 spark sql http www xaprb com blog 2006 12 07 how to select the firstleastmax row per group in
如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

这可能是一个愚蠢的问题源于我的无知我已经在 PySpark 上工作了几个星期并没有太多的编程经验我的理解是在 Spark 中 RDD 数据帧和数据集都是不可变的我再次理解这意味着您无法更改数据如果是这样为什么我们能够使用编
在 Pandas UDF PySpark 中传递多列

我想计算 PySpark DataFrame 两列之间的 Jaro Winkler 距离 Jaro Winkler 距离可通过所有节点上的 pyjarowinkler 包获得 pyjarowinkler 的工作原理如下 from pyjar
从单个字符串创建 Spark DataFrame

我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame 具有单列类型StringType 这样 String fizz buzz 将得到一个 DataFrame 其 show 方法如下 fizz buzz 迄今为止我
为什么spark在sql查询末尾附加'WHERE 1=0'

我正在尝试使用 Apache Spark 执行简单的 mysql 查询并创建一个数据框但由于某些原因 Spark 附加 WHERE 1 0 在我想要执行的查询末尾并抛出异常说明 You have an error in your SQL
Java Spark DataFrameReader java.lang.NegativeArraySizeException

学习 Spark for java 并尝试阅读 csv文件为DataFrame使用DataFrameReader 甚至不能得到一个超级简单的 csv文件工作因为我不断收到异常java lang NegativeArraySizeExcep

随机推荐

如何在 Three.js 中从 3D 点创建 3D 三次贝塞尔曲线三角形？

下列的这个话题我试图生成一个 3D 弯曲三角形作为 NURBS 曲面但我不明白如何设置 3D 点来做到这一点这是当前的实现 var edges this getEdges An edge is a line following 4 d
如何保持引导列大小相同，以便它们正确对齐？

我正在构建一个带有引导列的简单网站但我希望它们保持相同的高度因为从现在开始如果行中的最后一列高度较短则下一列会放置在其下方位于左侧下一行我怎么能这样做呢 col xs 3 border 1px solid red div clas
如何在 Go 中更新地图值

我想构建一个带有字符串键和结构值的映射我可以使用它来更新由映射键标识的映射中的结构值我已经尝试过这个操场 func main dataReceived Data Data ID D1 Value V1 Data ID D2 Value
适用于 .NET WinForms 的优质免费 Gridview

是否有适用于 NET WinForms 的优质免费 Gridview Xceed datagrid 精简版很可爱但适用于 WPF 它很好很简单在功能方面并不让人感到不知所措而且只需单击一个按钮看起来就很棒我正在为 WinFor
了解分配在堆栈上的实例的 C++ 虚拟方法

对于以下代码 include
MPEG-TS 分段 HTTP 实时流媒体

我尝试交织 MPEG TS 片段但失败了实际上使用笔记本电脑中的内置摄像头捕获一组片段然后使用 FFMPEG 使用以下命令进行编码 ffmpeg er 4 y f video4linux2 s 640x480 r 30 i s isyn
定义第一个日期选择器的第二个日期选择器的开始日期

我正在研究两个引导日期选择器一旦用户单击第一个日期选择器上的任何日期第二个日期选择器的开始日期应该是在第一个日期选择器中选择的在此之前所有日期都应被禁用但我肯定走错了路我无法弄清楚变量 diffDays 的值没有反映在第二个日期
执行 while / 循环以获得 10 个随机结果

您好我正在尝试为我的网站制作一个标签脚本以便每次搜索引擎访问我的网站时我的网站上都会显示 10 个不同的标签这些标签将从数据库中获取所以此刻我已经对其进行了编码因此它只抓取一个因为我不知道如何做while Like so sq
使用 VBA 将 Access 中的 RTF 文本复制到单词表

有没有办法使用 VBA 将 Access 数据库中的备注字段中的 RTF 文本复制到 Word 文档我现在有这段代码但它会生成 html 文本该文本包含标签但未格式化 Query the database and get the sa
WCF 和证书（相互身份验证）的糟糕性能

伙计们姑娘们我们稍后使用 WCF 作为应用程序的网站性能很糟糕我们正在使用消息级安全性和证书相互身份验证我们在应用程序对象中缓存通道工厂 Sub Application Start ByVal sender As Object B
如何在 MVC4 中识别 TempData 对象

我有一个创建 TempData 对象的 ActionMethod TempData Message new Message Text txtMessage Success false 然后我在视图中读取 TempData 如下所示 var
通过 Twitter Streaming API 获取所有过去的推文

我如何通过 Twitter Streaming API 获取所有过去的推文如您所知它发送实时推文而不是过去的推文有用的计数参数在 2010 年被禁用 REST API 有如此糟糕的限制以至于需要一生才能获取所有过去的推文有什么解
如何使用弹性框将第一个按钮对齐到左侧？ [复制]

这个问题在这里已经有答案了 div div
如何将python变量传递给html变量？

我需要从 python 中的文本文件读取 url 链接作为变量并在 html 中使用它文本文件 file txt 仅包含一行 http 188 xxx xxx xx 8878 这一行应该保存在变量 link 中然后我应该在html中使
解决 Azure YAML Pipeline 多个变量组中变量名称重叠的问题

我们正在努力将经典 Azure Pipelines 转换为 YAML Pipelines 不清楚的一件事是如何确保两个具有相同名称但不同含义的变量的不同变量组不会互相踩踏例如如果我有变量组vg1 and vg2 每个变量都有名为secr
从 EF Core 加载时计算 NotMapped 属性

我们确实有一个实体类定义如下 Table Users Schema Mstr Audited public class User public virtual string FamilyName get set public virtual
最大宽度与最小宽度

我正在阅读的大多数关于使用媒体查询的教程都演示了如何使用min width 但我很少看到人们使用max width 这是人们使用的某种设计趋势或模式吗 min width over max width 例如我正在设计一个从移动设备开始一直
使用 boost 几何体调整几何对象模型的其他问题

我想将 boost geometry 算法应用于以下不可变的 2D 模型分别由点多边形开放或封闭和多边形域类具有任意数量的孔类组成如下所示 include
如何给客户一个matlab项目？

如果一家公司从事 matlab 项目那么他们如何向客户提供该项目我的意思是他们将哪个文件发送给客户因为他们无法向客户移交整个代码和数据这取决于很多事情例如您为客户构建的产品的性质您与他们的关系和合同协议以及他们将来是否需要修改
PySpark java.io.IOException：方案没有文件系统：https

我正在使用本地窗口并尝试加载XML在 python 上使用以下代码的文件我遇到了这个错误有谁知道如何解决它这是代码 df1 sqlContext read format xml options rowTag IRS990EZ load

PySpark java.io.IOException：方案没有文件系统：https

PySpark java.io.IOException：方案没有文件系统：https 的相关文章

随机推荐

热门标签