从 pyspark 访问 cassandra

2023-12-30

我正在开发 Azure Datalake。我想从我的 pyspark 脚本访问 cassandra。我试过：

> pyspark --packages anguenot/pyspark-cassandra:0.7.0 --conf spark.cassandra.connection.host=12.34.56.78
SPARK_MAJOR_VERSION is set to 2, using Spark2
Python 2.7.12 |Anaconda custom (64-bit)| (default, Jul  2 2016, 17:42:40)
[GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Anaconda is brought to you by Continuum Analytics.
Please check out: http://continuum.io/thanks and https://anaconda.org
Ivy Default Cache set to: /home/opnf/.ivy2/cache
The jars for the packages stored in: /home/opnf/.ivy2/jars
:: loading settings :: url = jar:file:/usr/hdp/2.5.5.0-157/spark2/jars/ivy-2.4.0.jar!/org/apache/ivy/core/settings/ivysettings.xml
anguenot#pyspark-cassandra added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
        confs: [default]
        found anguenot#pyspark-cassandra;0.7.0 in spark-packages
        found com.datastax.spark#spark-cassandra-connector_2.11;2.0.6 in central
        found org.joda#joda-convert;1.2 in central
        found commons-beanutils#commons-beanutils;1.9.3 in central
        found commons-collections#commons-collections;3.2.2 in central
        found com.twitter#jsr166e;1.1.0 in central
        found io.netty#netty-all;4.0.33.Final in central
        found joda-time#joda-time;2.3 in central
        found org.scala-lang#scala-reflect;2.11.8 in central
        found net.razorvine#pyrolite;4.10 in central
        found net.razorvine#serpent;1.12 in central
:: resolution report :: resolve 710ms :: artifacts dl 33ms
        :: modules in use:
        anguenot#pyspark-cassandra;0.7.0 from spark-packages in [default]
        com.datastax.spark#spark-cassandra-connector_2.11;2.0.6 from central in [default]
        com.twitter#jsr166e;1.1.0 from central in [default]
        commons-beanutils#commons-beanutils;1.9.3 from central in [default]
        commons-collections#commons-collections;3.2.2 from central in [default]
        io.netty#netty-all;4.0.33.Final from central in [default]
        joda-time#joda-time;2.3 from central in [default]
        net.razorvine#pyrolite;4.10 from central in [default]
        net.razorvine#serpent;1.12 from central in [default]
        org.joda#joda-convert;1.2 from central in [default]
        org.scala-lang#scala-reflect;2.11.8 from central in [default]
        ---------------------------------------------------------------------
        |                  |            modules            ||   artifacts   |
        |       conf       | number| search|dwnlded|evicted|| number|dwnlded|
        ---------------------------------------------------------------------
        |      default     |   11  |   0   |   0   |   0   ||   11  |   0   |
        ---------------------------------------------------------------------
:: retrieving :: org.apache.spark#spark-submit-parent
        confs: [default]
        0 artifacts copied, 11 already retrieved (0kB/40ms)
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel).
18/04/17 14:52:39 WARN Client: Same path resource file:/home/opnf/.ivy2/jars/anguenot_pyspark-cassandra-0.7.0.jar added multiple times to distributed cache.
18/04/17 14:52:39 WARN Client: Same path resource file:/home/opnf/.ivy2/jars/com.datastax.spark_spark-cassandra-connector_2.11-2.0.6.jar added multiple times to distributed cache.
18/04/17 14:52:39 WARN Client: Same path resource file:/home/opnf/.ivy2/jars/net.razorvine_pyrolite-4.10.jar added multiple times to distributed cache.
18/04/17 14:52:39 WARN Client: Same path resource file:/home/opnf/.ivy2/jars/org.joda_joda-convert-1.2.jar added multiple times to distributed cache.
18/04/17 14:52:39 WARN Client: Same path resource file:/home/opnf/.ivy2/jars/commons-beanutils_commons-beanutils-1.9.3.jar added multiple times to distributed cache.
18/04/17 14:52:39 WARN Client: Same path resource file:/home/opnf/.ivy2/jars/com.twitter_jsr166e-1.1.0.jar added multiple times to distributed cache.
18/04/17 14:52:39 WARN Client: Same path resource file:/home/opnf/.ivy2/jars/io.netty_netty-all-4.0.33.Final.jar added multiple times to distributed cache.
18/04/17 14:52:39 WARN Client: Same path resource file:/home/opnf/.ivy2/jars/joda-time_joda-time-2.3.jar added multiple times to distributed cache.
18/04/17 14:52:39 WARN Client: Same path resource file:/home/opnf/.ivy2/jars/org.scala-lang_scala-reflect-2.11.8.jar added multiple times to distributed cache.
18/04/17 14:52:39 WARN Client: Same path resource file:/home/opnf/.ivy2/jars/commons-collections_commons-collections-3.2.2.jar added multiple times to distributed cache.
18/04/17 14:52:39 WARN Client: Same path resource file:/home/opnf/.ivy2/jars/net.razorvine_serpent-1.12.jar added multiple times to distributed cache.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.0.2.2.5.5.0-157
      /_/

Using Python version 2.7.12 (default, Jul  2 2016 17:42:40)
SparkSession available as 'spark'.
>>> import pyspark_cassandra
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ImportError: No module named pyspark_cassandra

显然，加载过程中没有问题，但最后我仍然无法导入包。可能是什么原因？

该包的使用与文档中描述的略有不同。

无需导入包。相反，如果您想读取数据帧，请使用：

sqlContext.read\
    .format("org.apache.spark.sql.cassandra")\
    .options(table="my_table", keyspace="my_keyspace")\
    .load()

如果你想写，请使用：

df.write\
    .format("org.apache.spark.sql.cassandra")\
    .mode('append')\
    .options(
        table="my_table", 
        keyspace="my_keyspace",
    )\
    .save()

(with mode('overwrite')，您可能需要添加该方法.option('confirm.truncate',True))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

cassandra

PySpark

从 pyspark 访问 cassandra 的相关文章

为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
Cassandra - 选择而不复制

假设我创建了一个键空间和表 CREATE KEYSPACE IF NOT EXISTS keyspace rep 0 WITH replication class SimpleStrategy replication factor 0 CR
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
为什么 Cassandra 客户端在生产中没有 epoll 时会失败？ [复制]

这个问题在这里已经有答案了当我在本地运行服务时我收到一条警告指出 epoll 不可用因此它使用 NIO 很公平当我将其部署到 Kubernetes 中时我得到了以下信息这导致服务无法运行 2017 03 29T19 09 22
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
将 Datastax Enterprise Cassandra 迁移到 Apache Cassandra

我们目前使用的是 DSE 4 8 和 5 12 我们想迁移到 apache cassandra 因为我们不使用 Spark 或搜索所以想节省一些钱迁移到 apache 这可以在不停机的情况下实现吗我看到 sstableloader 以其
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
向 cassandra 表添加列会立即完成吗？

我们计划在现有的 cassandra 表中添加一列 list 类型的列该表的数据文件大小约为 350 GB 在应用架构更改时我们可以暂时停止所有读写几分钟我们的理解是 cassandra 在应用架构更改时不会锁定表但要确保我们的
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S

随机推荐

是否可以使 bash shell 脚本与另一个命令行程序交互？

我在运行 bash shell 的 Linux 终端中使用交互式命令行程序我有一个明确的命令序列输入到 shell 程序中程序将其输出写入标准输出其中一个命令是保存命令它将前一个运行的命令的输出写入磁盘的文件中一个典型的循环是
if else 在列表理解中[重复]

这个问题在这里已经有答案了我有一个清单l l 22 13 45 50 98 69 43 44 1 对于45以上的数字我想加1 对于小于它的数字 5 I tried x 1 for x in l if x gt 45 else x 5 但
Jupyter 的 Octave 内核无法在 Windows 10 上运行

我尝试使用 pip 为 jupyter 安装八度内核如此处建议的https github com calysto octave kernel https github com calysto octave kernel 但我在创建新笔记本
根据 Firebase 中的子项过滤产品

我试图弄清楚如何根据 Firebase 中的子子节点来过滤产品我的设置如下 products product1 author 12345 title Awesome description more awesome product2 au
验证 RSA 签名 iOS

在我的静态库中我有一个许可证文件我想确保它是由我自己生成的并且没有被更改所以我的想法是使用我读过的 RSA 签名我在网上查了一下这就是我想到的第一使用我找到的信息生成私钥和自签名证书here https github com
在 Sybase 过程中从表中选择 TOP 1 * 失败

我尝试在不使用 RowCount 函数的情况下从 Sybase 表中仅获取一条记录即使 WHERE 条件返回多个结果 SELECT TOP 1 EMPLOYEE NAME FROM EMPLOYEES WHERE EMPLOYEEID
无效的堆地址和致命信号 11

我的应用程序经常会崩溃我的日志将显示 ABORTING INVALID HEAP ADDRESS IN dlfree Fatal signal 11 SIGSEGV at 0xdeadbaad code 1 有时code 2 但总是Fat
PUT/同步所需的 s3cmd S3 权限

在迁移到 AWS EC2 时我有充分的理由希望限制实例的用户权限实例需要做的一件事是访问 S3 上的文件并在那里写入文件然而如果不向该用户授予所有权限我找不到任何方法来实现此目的 s3cmd 允许我在我授予策略权限的 s3 存储桶
如何将字符串字段句子拆分为单词并将它们插入到具有相同键 id 的新表中？

我有一个名为 Pads 的表其中有一个名为 keywords 的字段它有一个单词列表也称为句子 e g Pad ID 1 Keywords red brown green ID 2 keywords green orange blue
OpenGL ES：围绕自身旋转 3d 模型

我正在 iPhone 上使用 OpenGL ES 并尝试通过用手指平移来旋转模型我发现了开源应用程序 Molecules 可以让你做到这一点我正在查看该代码但是当涉及到旋转我的模型时我只能围绕空间中远处的一个点旋转它就像它一样作
如何使用for循环画不同角度的圆线

我使用下面的代码在圆圈中画一条线现在我想以相同的间距以不同的角度绘制12条线并且线应该接触到圆圈
跨平台 Flash Player 嵌入

我需要以跨平台方式至少 Windows 和 Mac OSX 将 Flash 播放器嵌入本机应用程序 C 中我需要允许 Flash gui 回调本机应用程序来执行 Flash 通常无法执行的操作例如写入文件系统与设备通信加载本机图像
Jquery 手风琴关闭然后打开

我使用 jquery 手风琴插件在页面上设置了多个手风琴这样我就可以实现全部展开和折叠所有功能每个 ID 元素都是它自己的手风琴下面的代码可以将它们全部关闭无论哪些元素已经打开 contact address email sales
Xcode 14 - 无法在此文件中预览，无法连接到 iPhone 14 | FailedToConnectToDTServiceHubError：无法连接到 iPhone 14

在探索 swiftUI 并在 Xcode 中创建我的第一个 swiftUI 应用程序时它抛出预览错误提示无法在此文件中预览无法连接到设备名称虽然它在模拟器中运行良好为了排除故障我已经尝试了所有基本技巧例如删除派生数据取
谷歌地球热图

有没有办法在谷歌地球中创建热图以便具有较高值某些指定参数例如人口的区域显示为热点这似乎是可能的例如看一下这几个链接免责声明我没有尝试过这些 HeatMapAPI com http www heatmapapi com An
部分合并两个数据集并在R中填充NA

我有两个数据集 a 包含数千个不同天气事件观测结果的原始数据集 STATE EVTYPE 1 AL WINTER STORM 2 AL TORNADO 3 AL TSTM WIND 4 AL TSTM WIND 5 AL TSTM WIND
我可以用 sum() 连接列表吗？

使用Pythonic吗sum 用于列表串联 gt gt gt sum n n for n in range 1 5 1 2 2 3 3 3 4 4 4 4 不不是实际上是Shlemiel 画家算法 http en wikichip or
Visual Studio 2010 与 SQL Server 2008 和 Office 2007 的正确安装顺序？

我想创建一个 Windows 7 64 位旗舰版虚拟机 Visual Studio 2010 终极版 Office 2007 企业版带有 Visio 2007 SQL Server 2008 带有 SSIS 和 SSRS 但我不确定是
如何使用 Javascript 替换 DOM 元素？

我正在寻找替换 DOM 中的元素例如有一个 a 我想用 a 替换的元素 span 反而我该怎么做呢通过使用替换子对象 https developer mozilla org en US docs Web API Node repla
从 pyspark 访问 cassandra

我正在开发 Azure Datalake 我想从我的 pyspark 脚本访问 cassandra 我试过 gt pyspark packages anguenot pyspark cassandra 0 7 0 conf spark ca

从 pyspark 访问 cassandra

从 pyspark 访问 cassandra 的相关文章

随机推荐

热门标签