Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark 中的 StandardScaler 未按预期工作
知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零 标准差为 1 withStd 标志将数据缩放为 单位标准差 而标志 withMe
apachespark
PySpark
apachesparkml
根据 pyspark 中的条件从数据框中删除行
我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框 它只需要行 col1 的值 gt col2 的值 就像注释一样col1 很长类型和col2 有双
apachespark
DataFrame
PySpark
错误:无法找到或加载主类 org.apache.spark.launcher.Main [重复]
这个问题在这里已经有答案了 如果有人能帮我解决以下路径问题 我将不胜感激 我非常怀疑这与缺少路径设置有关 但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
apachespark
在 Spark 结构化流 2.3.0 中连接两个流时,左外连接不发出空值
两个流上的左外连接不发出空输出 它只是等待记录添加到另一个流中 使用套接字流来测试这一点 在我们的例子中 我们想要发出具有 null 值的记录 这些记录与 id 不匹配或 且不属于时间范围条件 水印和间隔的详细信息如下 val ds1Map
scala
apachespark
SparkStructuredStreaming
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker
我在基本层面上了解 build gradle 构建脚本的各个移动部分 但无法将它们全部结合在一起 在 Apache Spark 独立模式下 只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
apachespark
Gradle
Groovy
buildgradle
Spark 有没有办法捕获执行器终止异常?
在执行我的 Spark 程序期间 有时 其原因对我来说仍然是个谜 yarn 会杀死容器 执行器 并给出超出内存限制的消息 我的程序确实恢复了 但 Spark 通过生成一个新容器重新执行任务 但是 在我的程序中 任务还会在磁盘上创建一些中间文
apachespark
Bigdata
hadoopyarn
Spark 中的 Distinct() 函数如何工作?
我是 Apache Spark 的新手 正在学习基本功能 有一个小疑问 假设我有一个元组 键 值 的 RDD 并且想从中获取一些唯一的元组 我使用distinct 函数 我想知道该函数基于什么基础认为元组是不同的 是基于键 值还是两者 di
apachespark
Distinct
Scala Spark 包含与不包含
我可以使用 contains 过滤 RDD 中的元组 如下所示 但是使用 不包含 来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法 假设这是可能的并且我没有使用Dat
scala
apachespark
如何设置SPARK_HOME变量?
按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
apachespark
h2o
sparklingwater
IntelliJ:线程“主”java.lang.NoClassDefFoundError中的异常:org/apache/spark/sql/types/DataType
附言 有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
scala
apachespark
intellijidea
apachesparksql
sbt
将 IndexToString 应用于 Spark 中的特征向量
Context 我有一个数据框 其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
scala
apachespark
apachesparkml
Spark DataFrame 序列化为无效 json
TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
json
apachespark
apachesparksql
如何将 Pyspark Dataframe 标题设置到另一行?
我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框 使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行 新表应如下所示 id na
python
apachespark
PySpark
获取 int() 参数必须是字符串或数字,而不是“Column”- Apache Spark
如果我使用以下代码 我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
python
apachespark
PySpark
使用 Scala 获取 Spark 数据集中最新时间戳对应的行
我对 Spark 和 Scala 比较陌生 我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
scala
apachespark
apachesparksql
Scala:什么是 CompactBuffer?
我试图弄清楚 CompactBuffer 的含义 和迭代器一样吗 请解释其中的差异 根据 Spark 的文档 它是 ArrayBuffer 的替代方案 可以提供更好的性能 因为它分配的内存更少 以下是 CompactBuffer 类文档的摘
scala
apachespark
Spark:如何使用crossJoin
我有两个数据框 df1有 100000 行并且df2有 10000 行 我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行 尝试在本地运行它 但似乎需要很长时间 您认为本地可以实现
scala
apachespark
pyspark flatmat 错误:TypeError:“int”对象不可迭代
这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
apachespark
PySpark
python35
flatMap
如何使用 Spark 2 屏蔽列?
我有一些表 我需要屏蔽其中的一些列 要屏蔽的列因表而异 我正在读取这些列application conf file 例如 对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
scala
apachespark
apachesparksql
apachespark20
在 Spark MLlib 上使用 Java 中的 Breeze
在尝试从Java使用MLlib时 使用微风矩阵运算的正确方法是什么 例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的 有一些方法 例如 colon times 可以通过正确的方式调用 breez
Java
scala
apachespark
apachesparkmllib
scalabreeze
«
1 ...
5
6
7
8
9
10
11
...100
»