方案没有文件系统：cos

2024-01-16

我正在尝试从 IBM Data Science Experience 连接到 IBM Cloud Object Storage：

access_key = 'XXX'
secret_key = 'XXX'
bucket = 'mybucket'
host = 'lon.ibmselect.objstor.com' 
service = 'mycos'

sqlCxt = SQLContext(sc)
hconf = sc._jsc.hadoopConfiguration()
hconf.set('fs.cos.myCos.access.key', access_key)
hconf.set('fs.cos.myCos.endpoint', 'http://' + host)
hconf.set('fs.cose.myCos.secret.key', secret_key)
hconf.set('fs.cos.service.v2.signer.type', 'false')

obj = 'mydata.tsv.gz'

rdd = sc.textFile('cos://{0}.{1}/{2}'.format(bucket, service, obj))
print(rdd.count())

这将返回：

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: java.io.IOException: No FileSystem for scheme: cos

我猜我需要使用基于 stocator 的“cos”方案docs https://github.com/SparkTC/stocator。但是，错误表明 stocator 不可用或者是旧版本？

有任何想法吗？

更新1：

我还尝试过以下方法：

sqlCxt = SQLContext(sc)
hconf = sc._jsc.hadoopConfiguration()
hconf.set('fs.cos.impl', 'com.ibm.stocator.fs.ObjectStoreFileSystem')
hconf.set('fs.stocator.scheme.list', 'cos')
hconf.set('fs.stocator.cos.impl', 'com.ibm.stocator.fs.cos.COSAPIClient')
hconf.set('fs.stocator.cos.scheme', 'cos')
hconf.set('fs.cos.mycos.access.key', access_key)
hconf.set('fs.cos.mycos.endpoint', 'http://' + host)
hconf.set('fs.cos.mycos.secret.key', secret_key)
hconf.set('fs.cos.service.v2.signer.type', 'false')

service = 'mycos'
obj = 'mydata.tsv.gz'          
rdd = sc.textFile('cos://{0}.{1}/{2}'.format(bucket, service, obj))
print(rdd.count())

然而，这一次的回应是：

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: java.io.IOException: No object store for: cos
    at com.ibm.stocator.fs.ObjectStoreVisitor.getStoreClient(ObjectStoreVisitor.java:121)
    ...
Caused by: java.lang.ClassNotFoundException: com.ibm.stocator.fs.cos.COSAPIClient

支持 fs.cos 方案的最新版本 Stocator（v1.0.9）尚未部署在 Spark aaService 上（很快就会部署）。请使用 stocator 方案“fs.s3d”连接到您的 COS。

Example:

endpoint = 'endpointXXX' 
access_key = 'XXX'
secret_key = 'XXX'

prefix = "fs.s3d.service"
hconf = sc._jsc.hadoopConfiguration()
hconf.set(prefix + ".endpoint", endpoint)
hconf.set(prefix + ".access.key", access_key)
hconf.set(prefix + ".secret.key", secret_key)

bucket = 'mybucket'
obj = 'mydata.tsv.gz'

rdd = sc.textFile('s3d://{0}.service/{1}'.format(bucket, obj))
rdd.count()

或者，您可以使用 ibmos2spark。该库已安装在我们的服务上。例子：

import ibmos2spark

credentials = {
   'endpoint': 'endpointXXXX',
   'access_key': 'XXXX',
   'secret_key': 'XXXX'
}

configuration_name = 'os_configs' # any string you want
cos = ibmos2spark.CloudObjectStorage(sc, credentials, configuration_name)

bucket = 'mybucket'
obj = 'mydata.tsv.gz'
rdd = sc.textFile(cos.url(obj, bucket))
rdd.count()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

datascienceexperience

ibmcloudstorage

stocator

方案没有文件系统：cos 的相关文章

在pyspark lambda映射函数中使用keras模型

我想使用该模型来预测 PySpark 中的映射 lambda 函数的分数 def inference user embed item embed feats user embed item embed dnn model load mode
从 Pyspark LDA 模型中提取文档主题矩阵

我已经通过 Python API 在 Spark 中成功训练了 LDA 模型 from pyspark mllib clustering import LDA model LDA train corpus k 10 这工作得很好但我现在需
如果我们在更大的表中使用广播会发生什么？

我想知道如果我们广播较大的表并将其加入到较小的表中会发生什么另外如果我们有两个同样大的表在这种情况下使用广播连接会发生什么有几件事需要考虑火花上限 Spark支持最大8GB的广播表如果你的广播对象超过这个数量它就会失败驱动程
如何在 Pyspark 中启用 Apache Arrow

我正在尝试启用 Apache Arrow 来转换为 Pandas 我在用 pyspark 2 4 4 pyarrow 0 15 0 熊猫0 25 1 numpy 1 17 2 这是示例代码 spark conf set spark sql
如何解决错误“AttributeError：‘SparkSession’对象没有属性‘序列化器’？

我正在使用 pyspark 数据框我有一些代码试图在其中转换dataframe to an rdd 但我收到以下错误 AttributeError SparkSession 对象没有属性序列化器可能是什么问题 training tes
从 Spark-Shell (pyspark) 查询 Spark 流应用程序

我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame
实现一个java UDF并从pyspark调用它

我需要创建一个在 pyspark python 中使用的 UDF 它使用 java 对象进行内部计算如果它是一个简单的 python 我会做类似的事情 def f x return 7 fudf pyspark sql functions
PySpark 将“map”类型的列转换为数据框中的多列

Input 我有一个专栏Parameters类型的map形式 from pyspark sql import SQLContext sqlContext SQLContext sc d Parameters foo 1 bar 2 baz
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar

随机推荐

SECURITY_ERR：调用 Canvas 的 toDataURL 方法时出现 DOM 异常 18

当我尝试从在 Internet Explorer 和 Safari 浏览器上绘制 SVG 图像的画布检索数据 URL 时出现以下错误而其他浏览器都正常工作此外 SVG 图像还包含一些
使用sequelize的种子数据的不同目录

我希望在开发和生产之间有不同的种子数据我如何在配置中指定它我知道在 sequelizerc我可以加载动态配置文件并指定seeders path sequelizerc const path require path module exp
C 中的库存程序。需要有关如何从库存中删除项目的帮助

这是一个保存库存的程序该程序显示一个选项菜单除了删除条目功能之外其他一切都很完美我不知道如何让它删除一个功能我放置了一个变量来查找位置但我真的不知道如何我输入要删除的项目名称然后输入显示条目它会陷入无限混乱有人帮助我如何
使用 torchtext 时出现 ImportError

当我尝试运行这行代码时出现以下错误 from torchtext data import Field TabularDataset BucketIterator Iterator ImportError cannot import nam
Gradle从哪个版本开始支持Java 17

当尝试配置项目时我收到错误不支持 Java 您的构建当前配置为使用 Java 17 0 1 和 Gradle 7 0 不幸的是没有信息官方文档 https docs gradle org current userguide compa
CAtlList::RemoveAt 是否会使现有的 POSITIONS 无效？

我正在看这个其中 m Rows 是 CAtlList void CData RemoveAll size t cItems m Rows GetCount POSITION Pos m Rows GetHeadPosition while
如何按特定顺序自动启动程序？

我的 i3 配置文件中有以下几行 Startup applications exec firefox exec gnome terminal exec nautilus 这些行按预期启动 firefox gnome terminal 和 n
Erlang 和带有西里尔字母的二进制

我需要能够使用其中包含西里尔字符的二进制文件我尝试只写 lt lt gt gt 但我收到了 badarg 错误如何在 Erlang 中使用西里尔字母或 unicode 字符串如果你想输入上面的表达式erlang shell 请阅读u
使用基于单选按钮值的 javascript(Node JS) 将数据插入 mysql(Sequelize)

我有下面的 json 对象 phoneno field1 Mohamed field2 123456789 field3 Sameer field1 Ganesh field2 987654321 field3 Pandiyan sende
“现代”正则表达式的识别能力

真正的现代正则表达式实际上可以识别哪一类语言每当存在带有反向引用的无限长度捕获组时例如 1 正则表达式现在匹配非常规语言但这本身并不足以匹配类似的东西S S 匹配括号对的上下文无关语言递归正则表达式这对我来说是新的但我确信 Pe
如何为 NDK 工具链的 gcc 包含

首先我上次尝试将c程序编译到linux arm架构时遇到了一个问题以便稍后在android应用程序中使用它我成功地做到了这一点稍后我将写一篇关于如何使用 NDK 独立工具链的文章现在我终于开始工作了我正在尝试编译一个 c 文件
画半条无限直线？

我使用 pyqtgraph 进行数据采集并且必须在图形视图上表示一些阈值例如表示高电压限制等我使用了该类InfiniteLine来自 pyqtgraph 但现在我必须考虑在采集过程中阈值可能发生的一些变化它看起来像是两条无限线之间
为什么 Dapper dot net 不自行打开和关闭连接？

Dapper 隐式地期望连接在使用时打开为什么它不自己打开和关闭这不是简单的连接管理吗我问这个问题是因为我和一位同事一直在反复探讨连接池幕后发生的事情的本质以及在多个命令中保持连接打开或打开和关闭连接是否有任何好处对于每个命令 Da
python中zip档案的流式解压

有没有办法对单文件 zip 档案进行流式解压缩我目前在 s3 中有任意大的压缩存档每个存档一个文件我希望能够通过迭代来处理文件而不必实际将文件下载到磁盘或内存中一个简单的例子 import boto def count newli
在android程序中下载gmail附件

我尝试了很多搜索最后在这里问我需要写一段代码下载附件形成我的GMail 我怎样才能做到这一点到目前为止我可以阅读发送电子邮件但仍在弄清楚如何下载附件任何帮助将不胜感激附件不单独下载它们是 MIME 多部分文档的一部分您可
使用 HTTParty 捕获特定请求

我想在不使用代理的情况下捕获给定操作的完整请求 raw request 通过网络传输的内容我知道类上的 debug output 方法这可能是解决方案的一部分但不清楚如何根据每个请求进行设置考虑以下 response HTTPart
黑莓中的正则表达式？

如何在 Blackberry 中使用正则表达式验证电子邮件 Blackberry API 中没有 Pattern 类有没有其他方法可以验证谢谢当前的 Blackberry API 中没有正则表达式尝试这个 http code goo
具有可变参数的回调函数 tkinter 按钮[重复]

这个问题在这里已经有答案了 from tkinter import F Tk i 1 while i lt 10 newButton Button F text Show Number command lambda showNumber i
Python：Ramer-Douglas-Peucker（RDP）算法，用点数代替 epsilon

我想修改以下 python 脚本RDP算法 https en wikipedia org wiki Ramer E2 80 93Douglas E2 80 93Peucker algorithm目的是不使用 epsilon 而是选择我想在决
方案没有文件系统：cos

我正在尝试从 IBM Data Science Experience 连接到 IBM Cloud Object Storage access key XXX secret key XXX bucket mybucket host lon i

方案没有文件系统：cos

方案没有文件系统：cos 的相关文章

随机推荐

热门标签