使用 pyspark 连接 PostgreSQL

2024-05-07

我正在尝试使用 pyspark 连接到数据库，并且使用以下代码：

sqlctx = SQLContext(sc)
df = sqlctx.load(
    url = "jdbc:postgresql://[hostname]/[database]",
    dbtable = "(SELECT * FROM talent LIMIT 1000) as blah",
    password = "MichaelJordan",
    user =  "ScottyPippen",
    source = "jdbc",
    driver = "org.postgresql.Driver"
)

我收到以下错误：

知道为什么会发生这种情况吗？

Edit：我正在尝试在我的计算机本地运行代码。

从以下位置下载 PostgreSQL JDBC 驱动程序https://jdbc.postgresql.org/download/ https://jdbc.postgresql.org/download/

然后将数据库配置值替换为您的数据库配置值。

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.jars", "/path_to_postgresDriver/postgresql-42.2.5.jar") \
    .getOrCreate()

df = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:postgresql://localhost:5432/databasename") \
    .option("dbtable", "tablename") \
    .option("user", "username") \
    .option("password", "password") \
    .option("driver", "org.postgresql.Driver") \
    .load()

df.printSchema()

更多信息：https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

postgresql

apachespark

PySpark

使用 pyspark 连接 PostgreSQL 的相关文章

PostgreSql“运行安装后步骤...数据库集群初始化失败”

我是一名 Windows 用户我花了几个小时不断地安装和卸载然后才使其正常工作前 10 次左右才看到标题中的错误消息我将其作为一个自我回答的问题放在这里以防止其他人在安装时可能遇到同样的问题并为像我这样第一次使用 Postgre
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
最近邻居的 Postgis SQL

我正在尝试计算最近的邻居为此我需要传递一个参数来限制与邻居的最大距离例如半径1000米内最近的邻居是哪些我做了以下事情我用数据创建了表 id name latitude longitude 之后我执行了以下查询 SELECT
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
如何创建不返回任何内容的函数

我想写一个函数pl pgsql 我在用着Postgres 企业管理器 v3并使用 shell 来创建一个函数但在 shell 中我必须定义返回类型如果我不定义返回类型我将无法创建函数如何创建一个不返回结果的函数即创建一个新表的函数
Google App Engine Flexi 上 Django 的 Postgres 设置

我正在尝试在应用程序引擎灵活环境中使用 postgres 设置 django 我按照这里的说明进行操作 https cloud google com appengine docs flexible python using cloud sq
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
Postgres JSON 数据类型 Rails 查询

我正在使用 Postgres 的 json 数据类型但想要使用嵌套在 json 中的数据进行查询排序我想在 json 数据类型上使用 where 进行订购或查询例如我想查询关注者数量 gt 500 的用户或者我想按关注者或关注数
postgreSQL 在 WAMP 上的集成

我刚刚在 Windows 7 上安装了 postgreSQL 我正在尝试将 postgreSQL 与 WAMP 服务器集成为此我在 httpd conf 和 php ini 文件中进行了以下更改 1个加载模块c path to libp
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
部分唯一索引不适用于冲突子句 PostgreSQL

表结构 create table example a id integer b id integer c id integer flag integer 部分索引 create unique index u idx on example a
使用 NLog .NET Core 将日志记录到 PostgreSQL DB

我尝试将日志记录集成到 NET Core 中的数据库我能够设置 NLog 并将消息记录到 SQL Server 这很容易但是当我尝试将 DB 切换到 PostgreSQL 时似乎没有记录任何内容以下是startup cs中的代码 p
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
使用连接池后如何处理过多的并发连接？

Scenario 假设您有一个拥有大量流量的网站或应用程序即使使用数据库连接池性能也会受到真正的打击站点应用程序甚至可能崩溃因为并发连接太多 Question 人们有什么选择来处理这个问题我的想法我在想有这个问题的人可以创建多
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
Django 独特的不工作

我在从查询中过滤掉重复项时遇到问题我正在使用 Django 1 4 和 Postgres 8 4 13 我在我的模型对象上使用这个查询它是一个 jquery 自动完成 term request GET get term field re

随机推荐

OAuth 2.0：优点和用例 - 为什么？

谁能解释一下 OAuth2 的优点以及为什么我们应该实施它我问这个问题是因为我对此有点困惑这是我目前的想法 OAuth1 更准确地说是 HMAC 请求看起来合乎逻辑易于理解易于开发并且非常非常安全相反 OAuth2 带来了授权请求
在 C 或 C++ 中返回结构是否安全？

我的理解是不应该这样做但我相信我已经看到过这样做的示例注意代码不一定在语法上正确但想法就在那里 typedef struct int a b mystruct 然后这是一个函数 mystruct func int c int d my
如何解决使用 UWP GetFolderFromPathAsync 时访问被拒绝的问题

尝试使用 GetFolderFromPathAsync 从 UWP 应用访问文件系统时我的访问被拒绝我的 UWP 应用需要访问 Windows 10 文件系统我正在使用 BroadFileSystemAccess 但被卡住了我下面的
如何关闭 IntelliJ 编辑器中的无限空白？

如何删除 IntelliJ 中行尾后移动光标的功能文件菜单 gt 设置 gt 编辑器 gt 常规 gt 虚拟空间并取消选中允许在行尾后放置插入符号您还可以取消选中虚拟空间面板中的其他选项
iOS Flutter 与 Firebase：启动时 FlutterAppDelegate 中出现白屏和 SIGABRT

现在在多个项目中非常不一致的是我在启动应用程序时出现白屏并且 Xcode 显示错误 Thread 1 signal SIGABRT 在线上 objc class AppDelegate FlutterAppDelegate 这些都是i
不同GIT版本的GIT合并结果不同

在不同的 GIT 版本上运行 merge 命令我们得到不同的结果命令是 git merge no ff origin master codeline Results 版本2 1 4 gt 合并成功版本1 7 1 gt 同一提交上的同一合
非等值连接一步添加 data.table 中范围表的所有列

我确信我忽略了显而易见的事情但我找不到一种方法来连接查找表的所有列data table非等值连接一步到位我看了阿伦的演讲 https github com Rdatatable data table wiki talks ArunS
jQuery Cycle 幻灯片的动画内容

每张幻灯片都由标题框和图像组成 div div class slide div class slideTitle h2 First title h2 div img src image jpg div div class slide div
如何在不退出的情况下更新会话值？

With NextAuth js https github com nextauthjs next auth 如何在不注销并再次登录的情况下更新会话对象内的值例如一旦用户登录我就会使用会话中存储的 URL 来显示用户的头像我还提供用
垂直居中弹出框 div

我正在尝试制作一个类似 iPad 的弹出框 div 作为练习但我不知道如何使弹出框 div 垂直居中因为内容宽度高度未指定 http jsfiddle net mbYyR 5 http jsfiddle net mbYyR 5 我希望
有没有办法将 fopen_s() 与 GCC 一起使用，或者至少创建一个 #define ？

MSVC 编译器说fopen 已弃用建议使用fopen s 有什么办法可以使用吗fopen s 并且仍然便携任何想法 define 微软的 s函数是不可移植的我通常使用等效的 C89 C99 函数并禁用弃用警告 define CRT
在组件之间路由时如何保持 React 新的 Context API 状态？

Summary 1 你知道当通过路由挂载卸载时如何保持Context Provider的状态吗 2 或者你知道一个维护良好的 Flux 实现支持多个独立的存储吗详细地除了 React 组件自己的状态之外到目前为止我主要使用的是 re
在箱线图中添加多条水平线

我知道我可以使用类似命令向箱线图添加一条水平线 abline h 3 当单个面板中有多个箱线图时我可以为每个箱线图添加不同的水平线吗在上图中我想为 1 添加行 y 1 2 为 2 添加行 y 1 5 为 3 添加行 y 2 1 我不确
TypeDescriptor 不返回继承接口的成员

我的问题是 TypeDescriptor 不从继承的接口返回成员这是它应该如何工作的吗或者这是一个错误 TestFixture public class DescriptorTests Test public void Test cou
选择列中包含确切数字的行，其中一组数字以逗号分隔

也许答案很简单但我找不到正确的 MySQL 查询来完成我想要的操作我有桌子user id user name action type 1 joshua 1 13 12 40 2 joshua 2 8 我只想选择具有确切数字的行actio
MFMessageComposeViewController 显示空白/白屏

if MFMessageComposeViewController canSendText MFMessageComposeViewController controller MFMessageComposeViewController a
如何对数组进行排序（索引）以使用这些索引将原始数组从最小到最大值排序

例如我有这个数组 int a 6 10 16 11 7 12 3 9 8 5 我想像这样对其索引进行排序 6 9 0 4 8 7 1 3 5 2 所以我可以使用索引将 a 从最小到最大值排序在我的代码中我得到了这个 6 9 4 8 7 4
如何限制footable中表页脚显示的页码

如何限制表页脚中显示的页码如果我有 1000 行并且数据页大小为 10 那么它会在页脚中给出许多页码那么是否有任何数据属性可以提及仅显示一些页码类似于这种格式 gt gt 在 footable 2 中您可以简单地将 data li
Laravel - 雄辩地覆盖自定义时间戳......为什么？

我正在制作一个库存管理系统当产品缺货时我会在表中输入一个条目并记下 oos at 字段和日期时间后来当它回到库存时我找到该条目并更新 restocked at 时间戳字段但是当我执行第二个操作时我的 oos at 字段被
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT

使用 pyspark 连接 PostgreSQL

使用 pyspark 连接 PostgreSQL 的相关文章

随机推荐

热门标签