Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何更改 SparkContext.sparkUser() 设置(在 pyspark 中)?
我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中 我试图将其保存到hdfs使用saveAsTextfile 功能 但我得到一个 没有权限 错误消息 因为 pyspark 尝试写入hdfs使用我的本地帐
scala
apachespark
PySpark
将 Spark 数据框中的时间戳转换为日期
我见过 这里 如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
python
python3x
apachespark
PySpark
apachesparksql
异常:java.lang.Exception:使用 master 'yarn' 运行时,必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中
我是新的阿帕奇火花 我已经在spark独立模式下测试了一些应用程序 但我想运行应用程序yarn模式 我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
Hadoop
apachespark
PySpark
hadoopyarn
Python Spark DataFrame:用 SparseVector 替换 null
在 Spark 中 我有以下名为 df 的数据框 其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
python
apachespark
PySpark
apachesparksql
Spark SQL / PySpark 中的逆透视
我手头有一个问题陈述 其中我想在 Spark SQL PySpark 中取消透视表 我已经浏览了文档 我可以看到仅支持pivot 但到目前为止还不支持取消透视 有什么方法可以实现这个目标吗 让我的初始表如下所示 When I pivotPy
apachespark
PySpark
apachesparksql
Pivot
unpivot
如何从 PySpark 中某个表中找到的多个表中获取所有数据?
我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
sql
PySpark
apachesparksql
pysparkschema
Spark 中的广播 Annoy 对象(对于最近邻居)?
由于 Spark 的 mllib 没有最近邻居功能 我正在尝试使用Annoy https github com spotify annoy为近似最近邻 我尝试广播 Annoy 对象并将其传递给工人 然而 它并没有按预期运行 下面是可重复性的
python
apachespark
PySpark
nearestneighbor
KNN
PySpark 用数组替换 Null
通过 ID 连接后 我的数据框如下所示 ID Features Vector 1 50 Array 1 1 2 3 2 50 Null 我最终得到 向量 列中某些 ID 的空值 我想用 300 维的零数组替换这些 Null 值 与非空向量条
Arrays
null
PySpark
使用 pyspark 连接 PostgreSQL
我正在尝试使用 pyspark 连接到数据库 并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
postgresql
apachespark
PySpark
在 Spark-submit 上的 _find_and_load 中获取文件“
”,第 991 行
我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中 我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
python
apachespark
PySpark
在 Spark 中分发 scikit learn 分类器的推荐方法是什么?
我已经使用 scikit learn 构建了一个分类器 现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
apachespark
scikitlearn
PySpark
Spark - java.lang.OutOfMemoryError:请求的数组大小超出 VM 限制
我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作 该集群位于总 RAM 约为 512GB 的 7 节点集群上 我的代码如下 ndf ndf repartition 20000 by user
apachespark
PySpark
使用列值作为 Spark DataFrame 函数的参数
考虑以下数据框 letter rpt X 3 Y 1 Z 2 可以使用以下代码创建 df spark createDataFrame X 3 Y 1 Z 2 letter rpt 假设我想重复每行列中指定的次数rpt 就像这样questio
apachespark
PySpark
apachesparksql
pyspark:计算窗口上的不同值
我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数 计数 不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数 这是一些示例代码 from py
apachespark
PySpark
apachesparksql
windowfunctions
distinctvalues
错误:从列表创建 Spark 数据帧时 TimestampType 无法接受对象
我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
PySpark
apachesparksql
pyspark.pandas 与 pandas 有什么区别?
开始在 Databricks 上使用 PySpark 我发现我可以导入pyspark pandas旁边pandas 有什么不同 我认为这不像koalas right PySpark 是 Python 中 Apache Spark 的接口 它
pandas
PySpark
pyspark中的稀疏向量RDD
我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
apachespark
PySpark
sparsematrix
apachesparkmllib
tfidf
保存的数据带有不需要的引号
我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
python
csv
apachespark
PySpark
Spark 数据框添加带有随机数据的新列
我想向数据框中添加一个新列 其值由 0 或 1 组成 我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
python
apachespark
PySpark
apachesparksql
如何计算 pyspark dataframe 中的每日基础(时间序列)
所以我有一个数据框 我想计算一些数量 比如说每天 假设我们有 10 列 col1 col2 col3 col4 coln 其中每列都依赖于值col1 col2 col3 col4 等等 日期根据id date col1 id col2 co
apachesparksql
PySpark
«
1
2
3
4
5
6
...46
»