toDF 问题，值 toDF 不是 org.apache.spark.rdd.RDD 的成员

2024-04-18

我已附加错误“value toDF is not a member of org.apache.spark.rdd.RDD”的代码片段。我正在使用 scala 2.11.8 和 Spark 2.0.0。您能帮我解决 API toDF() 的这个问题吗？

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.SQLContext
import org.apache.spark.SparkConf
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.functions._

object HHService {
    case class Services(
    uhid:String,
    locationid:String,
    doctorid:String,
    billdate:String,
    servicename:String,
    servicequantity:String,
    starttime:String,
    endtime:String,
    servicetype:String,
    servicecategory:String,
    deptname:String
    )

    def toService = (p: Seq[String]) => Services(p(0), p(1),p(2),p(3),p(4),p(5),p(6),p(7),p(8),p(9),p(10))

    def main(args: Array[String]){
        val warehouseLocation = "file:${system:user.dir}/spark-warehouse"
        val spark = SparkSession
            .builder
            .appName(getClass.getSimpleName)
            .config("spark.sql.warehouse.dir", warehouseLocation)
        .enableHiveSupport()
            .getOrCreate()
        val sc = spark.sparkContext 

        val sqlContext = spark.sqlContext;

        import spark.implicits._
        import sqlContext.implicits._

        val hospitalDataText = sc.textFile("D:/Books/bboks/spark/Intellipaat/Download/SparkHH/SparkHH/services.csv")
        val header = hospitalDataText.first()
        val hospitalData= hospitalDataText.filter(a => a!= header)
        //val HData = hospitalData.map(_.split(",")).map(p=>Services(p(0), p(1),p(2),p(3),p(4),p(5),p(6),p(7),p(8),p(9),p(10)))
        val HData = hospitalData.map(_.split(",")).map(toService(_))

        val hosService=HData.toDF()
    }

}

1]需要获取sqlContext，如下所示。

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._

这解决了我的问题。下面前面的代码片段用于获取 sqlcontext。 val sqlContext = Spark.sqlContext （这样就可以与spark-shell一起使用）

2] 案例类需要脱离方法。大多数博客中也提到了这一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DataFrame

apachesparksql

toDF 问题，值 toDF 不是 org.apache.spark.rdd.RDD 的成员的相关文章

参数为动态的 Spark 滞后函数

我需要在spark中实现lag函数我可以像下面这样做使用 hive temp Spark 表中的一些数据假设 DF 有这些行 lagno value 0 100 0 200 2 null 3 null 其中第一列是您要使用的实际滞后数
非常大的数据集的余弦相似度

我在计算大量 100 维向量之间的余弦相似度时遇到问题当我使用from sklearn metrics pairwise import cosine similarity I get MemoryError在我的 16 GB 机器上每个
错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
用 pandas 查找树中叶节点的所有祖先

我有一个表有两列父和子这是从 SAP ERP 下载的 SETNODE 表需要在 python 中创建一个数据框其中每个级别作为其自己的列相对于其父级和之前的所有级别在Python 3 中完整关系的级别数量未知或始终变化
截断 pandas DataFrame 的行

创建示例数据框的代码 Sample account Jones LLC Jan 150 Feb 200 Mar 332 326 058 138 account Alpha Co Jan 200 Feb 210 Mar 234 246 234
如何编辑多个 Pandas DataFrame 浮点列的字符串格式？

我有一个pd DataFrame浮点数 import numpy as np import pandas as pd pd DataFrame np random rand 5 5 0 1 2 3 4 0 0 795329 0 125540
如何重置 pandas 数据框中的索引？ [复制]

这个问题在这里已经有答案了我有一个数据框从中删除了一些行结果我得到一个数据帧其中索引是这样的 1 5 6 10 11 我想将其重置为 0 1 2 3 4 我该怎么做以下似乎有效 df df reset index del df
pandas 使用查询功能检查列是否为空

我有 pandas 数据框我想在它的查询函数上执行 isnull 或 not isnull 条件如下所示 In 67 df data pd DataFrame a 1 20 None 40 50 In 68 df data Out 68
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
从数据帧字典中获取单独的数据帧 Python

我有一本字典d充满了数据帧的集合 key type size value gm1 dataframe mxn gm2 dataframe mxN gm10 dataframe nxM 我想使用它们来一一输出这些数据帧keys作为新数据框的名
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
通过变量分割 data.frame [重复]

这个问题在这里已经有答案了我将多个主题的数据存储在一个 CSV 文件中导入 CSV 文件后我想将每个参与者的数据拆分到自己的 data frame 中更确切地说我想采用下面的示例数据并创建三个新的 data frames 每个
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
Python：按小时、天和月过滤 Pandas 中的数据帧（按年分组）

作为 Pandas 的新手我必须进行大量挖掘才能找到这个问题的解决方案考虑到我仍然需要解决边界问题我想知道更好的方法来解决这个问题我有一组从 2009 年到 2012 年的 10 分钟功率测量值并且希望获得所有年份的小时和日
如何使用修改后的索引来旋转 pandas 数据框？

我有一个以下形式的时间序列数据框 rng pd date range 1 1 2013 periods 1000 freq 10min ts pd Series np random randn len rng index rng ts ts
根据随机选择的列生成随机天数

我有一个如下所示的数据框感谢 SO 社区在以下方面提供的帮助 df1 pd DataFrame person id 11 11 12 13 14 date birth 01 01 1961 12 30 1961 05 29 1967 01
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希

随机推荐

微软机器人框架上的对话机器人可能吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否有可能使用微软的机器人框架建立一个对话机器人我目前正在使用 Luis 和 Qna Maker 的组合但它仍然是一个单一的问答机
扩展C++字符串成员函数

我需要进行不区分大小写的查找并发现以下代码可以解决问题 bool ci equal char ch1 char ch2 return toupper unsigned char ch1 toupper unsigned char ch2
AngularJS 和休息服务

我最近开始尝试AngularJS 我正在构建一个简单的 html5 应用程序来更新MySQL数据库索引 html
获取 LinkedIn 分享计数 JSONP

使用 LinkedIn API 我想获取 URL 的分享计数 https www linkedin com countserv count share url http www linkedin com format json 但这给了我一
从Java调用Android WebView中的jQuery函数？

我正在尝试调用在 html 中定义的 javascript 函数喜欢 WebView loadUrl javascript hoge 我可以调用非 jQuery 函数但无法调用我在 document ready function jQu
IllegalStateException：getAttribute：会话已失效

我的第一个 JSF IceFaces 版本 1 8 2 应用程序在 JBoss 5 1 0 上运行时遇到问题一段时间后我收到一个异常告诉我有关会话问题这很奇怪因为我根本不在我的代码中使用会话以下日志显示由于此错误来自 JBoss
指向动态分配的 boost multi_array 中的类的指针，未编译

我对 C 和 Boost 还很陌生我想要 world 类的对象有一个名为 chunk 类型为 octreenode 的数组以前我有一个普通的一维数组这工作得很好现在我尝试转向使用具有 Boost 的 multi array 功能的
使用 PHP 从多选下拉列表中获取数据并插入到 MySQL 中

我的数据库中有一个使用以下命令创建的日期列表SET数据类型 SET Mon Tue Wed Thr Fri Sat Sun 我希望用户能够使用多选下拉列表选择多天放入数据库
如何在 WPF 中按名称查找样式触发器嵌入元素？

首先问题的核心如果通过样式触发器将一个元素指定为 ContentControl 的内容我似乎无法按名称找到它现在了解更多详细信息我有一个面板其布局和功能根据其数据上下文而有很大差异这是来自错误库的错误当该错误为空时它是一
根据合并请求触发 gitlab-ci 中的作业

是否可以仅根据合并请求从 gitlab ci 运行作业现在我们有一个包含大量测试的大型整体项目但我们只想在合并到分支 master 之前运行测试嗯目前还没有内置但是您自己也不是不可能 Gitlab 允许trigger https
支持 __getitem__ 的类的 Python 类型提示

我想向一个函数添加类型提示该函数将接受带有 getitem 方法例如在 def my function hasitems locator hasitems locator 我不想限制hasitems成为特定类型例如list or d
如何将查询字符串传递给backbone.js 路由

我正在使用 Backbone js 和 jQuery mobile jQuery 移动路由被禁用我仅将库用于 UI 除了选择页面转换之外我一切正常我需要将页面转换向上切片淡入淡出向下滑动传递到主干路由器因为转换根据用户来自的
获取数据工厂中单个管道执行的成本

我正在考虑使用 Azure 数据工厂 V2 进行集成导入并想知道是否有办法跟踪正在运行的各个管道的成本例如如果我有 3 个管道代表 3 个不同的集成是否有办法查看每个管道产生的成本还有一种方法可以近乎实时地执行此操作以便在一个
我们应该使用 setTargetFragment() 吗？我认为 Fragments 不应该互相通信

Android开发者教程建议我使用片段的宿主活动来传递数据等等那么为什么有一个设置获取目标片段方法呢到目前为止我的应用程序包含一个主机活动和一个片段其中有一个启动按钮DialogFragment 其中有一个按钮可以启动另一个Dia
Pandas 会影响 Rapidfuzz 匹配的结果吗？

我正在碰壁如果我在 pandas 数据帧内运行 Rapidfuzz 以及单独运行它它会为字符串分数相似性提供不同的结果吗为什么地址相似度 2 和最后一行的结果不同 from rapidfuzz import process utils
在 Android 中使用带有自定义标签的块模板引擎

我正在尝试在 android 中使用 chunk 我需要这样的东西 Suppose 以下是标签 tags 世界世界 c 丹尼斯里奇苹果工作 Input HELLO world C 是由 c 而java是由 java 编写的 hola
在 R 中安装插入符包时出现依赖问题

我正在尝试安装 R 包caret 这给了我ERROR dependencies ggplot2 reshape2 BradleyTerry2 are not available for package caret 我尝试单独安装其中的每一个
如何在SCSS中获取数组的$values？

我正在制作自己的插件通过编写单个插件自动进行多个媒体查询 includeSCSS 中的行所以当我输入时 include medias bp values width 输出应该是这样的 media all and min width 56
unix select() 调用：如何组合 fd_sets？

我正在用 C 语言为 Linux 编写一个应用程序它使用 2 个独立的第三方库这两个库都是异步的并使用 select 他们还提供了一个 API 可以返回他们等待的文件描述符我的目的是将它们传递给我自己的 select 然后在设置了自己
toDF 问题，值 toDF 不是 org.apache.spark.rdd.RDD 的成员

我已附加错误 value toDF is not a member of org apache spark rdd RDD 的代码片段我正在使用 scala 2 11 8 和 Spark 2 0 0 您能帮我解决 API toDF 的这个

toDF 问题，值 toDF 不是 org.apache.spark.rdd.RDD 的成员

toDF 问题，值 toDF 不是 org.apache.spark.rdd.RDD 的成员 的相关文章

随机推荐

热门标签

toDF 问题，值 toDF 不是 org.apache.spark.rdd.RDD 的成员的相关文章