将数据作为 RDD 保存回 Cassandra

2024-05-04

我试图从 Kafka 读取消息，处理数据，然后将数据添加到 cassandra 中，就像它是 RDD 一样。

我的麻烦是将数据保存回 cassandra 中。

from __future__ import print_function

from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
from pyspark import SparkConf, SparkContext

appName = 'Kafka_Cassandra_Test'
kafkaBrokers = '1.2.3.4:9092'
topic = 'test'
cassandraHosts = '1,2,3'
sparkMaster = 'spark://mysparkmaster:7077'


if __name__ == "__main__":
    conf = SparkConf()
    conf.set('spark.cassandra.connection.host', cassandraHosts)

    sc = SparkContext(sparkMaster, appName, conf=conf)

    ssc = StreamingContext(sc, 1)

    kvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": kafkaBrokers})
    lines = kvs.map(lambda x: x[1])
    counts = lines.flatMap(lambda line: line.split(" ")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a+b)
    counts.saveToCassandra('coreglead_v2', 'wordcount')

    ssc.start()
    ssc.awaitTermination()

和错误：

[root@gasweb2 ~]# spark-submit --jars /var/spark/lib/spark-streaming-kafka-assembly_2.10-1.6.0.jar --packages datastax:spark-cassandra-connector:1.5.0-RC1-s_2.11 /var/spark/scripts/kafka_cassandra.py
Ivy Default Cache set to: /root/.ivy2/cache
The jars for the packages stored in: /root/.ivy2/jars
:: loading settings :: url = jar:file:/var/spark/lib/spark-assembly-1.6.0-hadoop2.6.0.jar!/org/apache/ivy/core/settings/ivysettings.xml
datastax#spark-cassandra-connector added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
    confs: [default]
    found datastax#spark-cassandra-connector;1.5.0-RC1-s_2.11 in spark-packages
    found org.apache.cassandra#cassandra-clientutil;2.2.2 in central
    found com.datastax.cassandra#cassandra-driver-core;3.0.0-rc1 in central
    found io.netty#netty-handler;4.0.33.Final in central
    found io.netty#netty-buffer;4.0.33.Final in central
    found io.netty#netty-common;4.0.33.Final in central
    found io.netty#netty-transport;4.0.33.Final in central
    found io.netty#netty-codec;4.0.33.Final in central
    found io.dropwizard.metrics#metrics-core;3.1.2 in central
    found org.slf4j#slf4j-api;1.7.7 in central
    found org.apache.commons#commons-lang3;3.3.2 in central
    found com.google.guava#guava;16.0.1 in central
    found org.joda#joda-convert;1.2 in central
    found joda-time#joda-time;2.3 in central
    found com.twitter#jsr166e;1.1.0 in central
    found org.scala-lang#scala-reflect;2.11.7 in central
:: resolution report :: resolve 647ms :: artifacts dl 15ms
    :: modules in use:
    com.datastax.cassandra#cassandra-driver-core;3.0.0-rc1 from central in [default]
    com.google.guava#guava;16.0.1 from central in [default]
    com.twitter#jsr166e;1.1.0 from central in [default]
    datastax#spark-cassandra-connector;1.5.0-RC1-s_2.11 from spark-packages in [default]
    io.dropwizard.metrics#metrics-core;3.1.2 from central in [default]
    io.netty#netty-buffer;4.0.33.Final from central in [default]
    io.netty#netty-codec;4.0.33.Final from central in [default]
    io.netty#netty-common;4.0.33.Final from central in [default]
    io.netty#netty-handler;4.0.33.Final from central in [default]
    io.netty#netty-transport;4.0.33.Final from central in [default]
    joda-time#joda-time;2.3 from central in [default]
    org.apache.cassandra#cassandra-clientutil;2.2.2 from central in [default]
    org.apache.commons#commons-lang3;3.3.2 from central in [default]
    org.joda#joda-convert;1.2 from central in [default]
    org.scala-lang#scala-reflect;2.11.7 from central in [default]
    org.slf4j#slf4j-api;1.7.7 from central in [default]
    ---------------------------------------------------------------------
    |                  |            modules            ||   artifacts   |
    |       conf       | number| search|dwnlded|evicted|| number|dwnlded|
    ---------------------------------------------------------------------
    |      default     |   16  |   0   |   0   |   0   ||   16  |   0   |
    ---------------------------------------------------------------------
:: retrieving :: org.apache.spark#spark-submit-parent
    confs: [default]
    0 artifacts copied, 16 already retrieved (0kB/14ms)
16/02/15 16:26:14 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Traceback (most recent call last):
  File "/var/spark/scripts/kafka_cassandra.py", line 27, in <module>
    counts.saveToCassandra('coreglead_v2', 'wordcount')
AttributeError: 'TransformedDStream' object has no attribute 'saveToCassandra'

通过搜索我发现这个 GitHub 问题 https://github.com/TargetHolding/pyspark-cassandra/issues/25，但这似乎与不同的库有关（我无法使用该库，因为我正在使用 Cassandra 3.0 并且尚不支持它）。

目标是从单个消息创建聚合数据（字数仅用于测试）并将其插入到多个表中。

我接近只使用Datastax Python 驱动程序 https://github.com/datastax/python-driver并自己编写报表，但是有更好的方法来实现这一点吗？

您正在使用 Datastax 的 Spark Cassandra 连接器，它在 RDD / DStream 级别不支持 python。仅支持数据框。请参阅docs https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md了解更多信息。

我围绕上述连接器编写了一个包装器：PySpark 卡桑德拉 https://github.com/TargetHolding/pyspark-cassandra/。对于 Datastax 连接器来说，它的功能并不完整，但有很多东西。此外，如果性能很重要，那么调查性能影响可能是值得的。

最后，Spark 附带了一个蟒蛇的例子 https://github.com/apache/spark/blob/master/examples/src/main/python/cassandra_outputformat.py使用 hadoop mapreduce 中的 CqlInput/OutputFormat。在我看来，这不是一个对开发人员非常友好的选择，但它确实存在。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将数据作为 RDD 保存回 Cassandra 的相关文章

如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
在Python中连接反斜杠

我是 python 新手所以如果这听起来很简单请原谅我我想加入一些变量来生成一条路径像这样 AAAABBBBCCCC 2 2014 04 2014 04 01 csv Id TypeOfMachine year month year
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
Docker 中的 Python 日志记录

我正在 Ubuntu Web 服务器上的 Docker 容器中测试运行 python 脚本我正在尝试查找由 Python Logger 模块生成的日志文件下面是我的Python脚本 import time import logging
如何通过 TLS 1.2 运行 django runserver

我正在本地 Mac OS X 机器上测试 Stripe 订单我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
如何通过索引列表从 dask 数据框中选择数据？

我想根据索引列表从 dask 数据框中选择行我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
cv2.VideoWriter：请求一个元组作为 Size 参数，然后拒绝它

我正在使用 OpenCV 4 0 和 Python 3 7 创建延时视频构造 VideoWriter 对象时文档表示 Size 参数应该是一个元组当我给它一个元组时它拒绝它当我尝试用其他东西替换它时它不会接受它因为它说参数不是
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk

随机推荐

“新功能”的使用和性能问题

我正在通过 AJAX 加载脚本文件并运行其内容我这样做 new Function someargument xhr responseText somevalue 然而根据 MDN 的说法 Function使用创建的对象Function
Python 中 scipy/numpy 中的 exp 溢出？

出现以下错误是什么意思 Warning overflow encountered in exp 在 scipy numpy 中使用 Python 一般意味着什么我正在计算对数形式的比率即 log a log b 然后使用 exp 取结果
rmarkdown：pandoc：找不到 pdflatex

当我在 Mac 上使用 render rmarkdown 从 Rmd 文件生成 pdf 文件时出现错误消息 pandoc pdflatex not found pdflatex is needed for pdf output Error
我可以补间 D3 弧的结束角度，但不能补间起始角度。我究竟做错了什么？

我只是在玩这个演示并自己重新创建它 http bl ocks org mbostock 5100636 http bl ocks org mbostock 5100636 我可以定义一个新的 endAngle 并且它会很好地制作动画但现在
Openlayers3：中止绘制交互

我在 html 中使用绘制交互来手动绘制路线 manual route creation event createRoute click function remove previous interactions map removeInt
在 JasperReports 中打印何时（到达最后一个元素）表达式

是否可以生成一个 Print When Expression 来检测 XML 数据源文件中的最后一个元素基本上我有一个报告在详细信息区域的子报告之后插入了分栏符这样我就可以清楚地定义新记录的开头的新页面但它总是让我最后一页空白因
根据纬度和经度识别哪个是多边形

我有一张使用 leaflet js 绘制的地图如果我给出经度和纬度值作为输入我可以识别多边形吗我可以获得一个客户端脚本吗得到答复如下这是基于多边形中的点算法 function getPoint float x 89 824218
使用 Angular UI Bootstrap 在动态创建的选项卡上设置活动选项卡

我有一个动态选项卡集它从一个以空白开始的数组生成选项卡当我向数组添加新项目时它会显示为新选项卡我希望最后添加的选项卡成为活动选项卡每次向数组添加项目时我都会设置活动索引 HTML
如何在Python中用turtle在下一行写入

for i in range 0 len all keys if i 4 break elem dict1 all keys i output elem str all keys i print output write output fo
Windows 10 关闭、最小化和最大化按钮

要绘制主题按钮我使用以下代码 var h HTHEME begin if UseThemes then begin SetWindowTheme Handle explorer nil h OpenThemeData Handle WIN
部署在aws上时如何使用环境变量

我正在构建一个在本地利用环境变量的 Web 应用程序我想将其投入生产在线我正在尝试了解如何在 AWS 上设置环境变量这是一个 Node js 应用程序我在 AWS 上使用 Elastic beanstalk 进行部署我已经看过了
将具有联合字段的 C 结构映射到 Go 结构

我从 Go 中的某些 WinApi 的系统调用中获取结果我可以轻松地从 C 代码映射简单的结构但是如何处理如下所示的 C 结构 typedef struct SPC LINK DWORD dwLinkChoice define SPC
如何使用 zend paginate 而不加载数据库的所有结果

所以我认为 zend paginate 工作的方式是 paginator Zend Paginator factory results paginator gt setItemCountPerPage itemCount paginator
C++ const 左值引用

假设我有 A 类不可复制类 B 具有 const A a 作为成员并在其构造函数中采用 A 并将其设置在其初始化列表中一个函数A GenerateA 这是否意味着执行以下操作应该有效 B 生成A 即 const ref 是否意味着ge
为什么 SDL 在 Mac 上比 Linux 上慢得多？

我正在研究使用 SDL2 渲染的单线程图形程序 https github com TurkeyMcMac intergrid 请参阅末尾的较小示例它既可以在旧的 Linux 机器上运行也可以在不太旧的 Mac 上运行 Linux 计算机
Cocos2d：CCSpriteBatch 节点是否仅绘制可见属性设置为 true 的精灵？

CCSpriteBatch 节点是否仅绘制可见属性设置为 true 的精灵或者它也考虑屏幕尺寸换句话说如果节点内的精灵位于屏幕之外 opengl 绘制调用的性能是否会反映这一点不不 CCSpriteBatchNode 始终绘制所有
多处理中的共享内存

我有三个大清单第一个包含位数组模块位数组 0 8 0 另外两个包含整数数组 l1 bitarray 1 bitarray 2 bitarray n l2 array 1 array 2 array n l3 array 1 array
mysql 时钟

我有一个包含以下元素的时钟表 id pk action emp id fk time 如果我通过了如何选择最新的动作emp id到查询 id emp id action current time 1 1 clockin 2012 01 2
IE9 是否支持 CSS3 ::before 和 ::after 伪元素？

On 这个 MS 兼容性表 http msdn microsoft com en us library cc351024 28v vs 85 29 aspx它说 IE9不支持伪元素 before and after 但当我尝试时似乎确实
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys

将数据作为 RDD 保存回 Cassandra

将数据作为 RDD 保存回 Cassandra 的相关文章

随机推荐

热门标签