从单个字符串创建 Spark DataFrame

2024-06-26

我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame（具有单列类型StringType）这样：

String fizz = "buzz"

将得到一个 DataFrame，其.show()方法如下：

+-----+
| fizz|
+-----+
| buzz|
+-----+

迄今为止我最好的尝试是：

val rawData = List("fizz")
val df = sqlContext.sparkContext.parallelize(Seq(rawData)).toDF()

df.show()

但我收到以下编译器错误：

java.lang.ClassCastException: org.apache.spark.sql.types.ArrayType cannot be cast to org.apache.spark.sql.types.StructType
    at org.apache.spark.sql.SQLContext.createDataFrame(SQLContext.scala:413)
    at org.apache.spark.sql.SQLImplicits.rddToDataFrameHolder(SQLImplicits.scala:155)

关于我哪里出了问题有什么想法吗？另外，我该如何设置"buzz"作为行值fizz column?

Update:

Trying:

sqlContext.sparkContext.parallelize(rawData).toDF()

我得到的 DF 看起来像：

+----+
|  _1|
+----+
|buzz|
+----+

Try:

sqlContext.sparkContext.parallelize(rawData).toDF()

在 2.0 中您可以：

import spark.implicits._

rawData.toDF

（可选）提供一系列名称toDF:

sqlContext.sparkContext.parallelize(rawData).toDF("fizz")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

从单个字符串创建 Spark DataFrame 的相关文章

抽象类型与类型参数

在什么情况下抽象类型应该优先于类型参数添加到我的之前关于抽象类型与参数的回答 https stackoverflow com questions 1154571 scala abstract types vs generics 11547
zip 样式 @repeat 嵌套形式

repeat非常有用然而我遇到了嵌套表单的障碍我需要制作一个比赛日程表它有 2 个属性日程数据比赛日期时间地点对手和提交球队备注例如由于冬季风暴 1 月 7 日的比赛已移至1 月 9 日在夏威夷表单映射基于 ca
这个错误是什么意思（SimpleHttpConnectionManager 被错误使用）？

我正在尝试从 ElasticSearch 中读取数据到 Spark conf es resource sflow sflow es nodes ES01 es query some query rdd sc newAPIHadoopRDD
从单个字符串创建 Spark DataFrame

我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame 具有单列类型StringType 这样 String fizz buzz 将得到一个 DataFrame 其 show 方法如下 fizz buzz 迄今为止我
如何在不进行硬编码的情况下使用 Cake 模式进行依赖注入？

我刚刚阅读并享受蛋糕图案文章 http jonasboner com real world scala dependency injection di 然而在我看来使用依赖项注入的关键原因之一是您可以改变 XML 文件或命令行参数所使用
scala 中“迭代 Seq 或如果为空”的更好版本？

是否有更短更好的方法来执行以下操作 mySeq map elmt gt do stuff if mySeq isEmpty some other stuff Ps 我正在使用 PlayFramework 这意味着在模板中使用所以如果我错
特征/类类型参数优先于方法类型参数的规则是什么

我已经使用 scala 一段时间了我认为我真的开始理解一切好吧大多数事情但我发现自己对 Map 类中的许多方法定义感到困惑我知道 FoldLeft 等如何工作但我感到困惑的是 Map 函数中使用的类型参数我们以 FoldLef
如何在 Scala 中跳过可选参数？

给定以下带有可选参数的函数 def foo a Int 1 b Int 2 c Int 3 我想保留默认值a但将新值传递给b and c仅通过位置赋值而不是通过命名赋值即以下任何语法都可以 foo 5 7 foo 5 7 Scala 可
Spark中DataFrame、Dataset、RDD的区别

我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花你能将其中一种转换为另一种吗首先是DataFrame是从SchemaRDD 是的
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont
首次使用 SBT - 检索代理背后的依赖项时出现问题

我已经下载了 SBT sbt 0 13 15 zip 并将其解压缩但在运行 sbt bat 时遇到问题最初我遇到了代理问题当我发现需要指定时修复了这些问题onlyhttpsconfig 而不是 http 的当提供两者时它使用的是
JavaScript 中 Scala View 的等效项

在斯卡拉中 view允许防止创建全新的集合例如在Scala中视图有什么作用 https stackoverflow com questions 6799648 in scala what does view do JavaScript
使用新的反射API，如何找到类的主构造函数？

您可以像这样获取类的所有构造函数 import scala reflect runtime universe val ctor typeOf SomeClass declaration nme CONSTRUCTOR asTerm alte
如何列出Resources文件夹中的所有文件（java/scala）

我正在编写一个函数需要访问资源中的文件夹并循环遍历所有文件名如果这些文件符合条件则加载这些文件 new File getClass getResource images sprites getPath listFiles 返回空指针
Spark 有效地过滤大数据框中存在于小数据框中的条目

我有一个 Spark 程序它读取一个相对较大的数据帧 3 2 TB 其中包含 2 列 id name 和另一个相对较小的数据帧 20k 条目其中包含单个列 id 我想做的是从大数据框中获取 id 和名称如果它们出现在小数据框中我想知
在 Scala 中避免 while 循环有什么好处吗？

阅读专家撰写的 Scala 文档可以得到这样的印象尾递归比 while 循环更好即使后者更简洁更清晰这是一个例子 object Helpers implicit class IntWithTimes val pip Int Recu
为什么流式聚合总是延迟到两批数据？

我使用 Spark 2 3 0 我的问题是每当我在输入目录中添加第三批数据时第一批数据就会被处理并打印到控制台为什么 val spark SparkSession builder appName micro1 enableHiveSu
我的sparkDF.persist(DISK_ONLY)数据存储在哪里？

我想更多地了解spark中hadoop的持久化策略当我使用 DISK ONLY 策略保存数据帧时我的数据存储在哪里路径文件夹我在哪里指定这个位置对于简短的答案我们可以看看文档 https spark apache org do
如何创建独立的电梯 Web 应用程序？

如何制作独立的电梯应用程序使用哪些工具库与在某些应用程序服务器中使用 lift 应用程序作为战争相比性能如何使用 onejar maven 插件http onejar maven plugin googlecode com svn
pyspark 中的全局计数器

为什么我用下面的 pyspark 编写的计数器并不总是为我提供正确的结果它与全局计数器有关吗 def increment counter global counter counter 1 def get number of element

随机推荐

如何使用 7zip powershell 包含文件和文件夹

我试图让我的 powershell 脚本压缩一些文件和文件夹目前我可以使我的脚本要么压缩所有文件不包含文件夹要么压缩包含文件夹但到错误路径的所有文件一个例子是如果我有一个名为 wordpress 的文件夹其中包含文件和一些子文
jQuery.remove()，分离 DOM 元素，但我仍然可以从代码中访问这些元素。如何避免泄漏？

我知道在具有大量 UI 元素且完全基于 Ajax 的应用程序中正确管理内存并不容易在我的应用程序中页面永远不会重新加载但我想了解以下行为我有一个根元素一次必须附加一个子元素将其视为根元素是应用程序容器子元素是单个页面每当我
如何使用 Windows API 检索 HD 供应商/序列号

我说的是physical磁盘驱动器而不是卷分区逻辑驱动器所以通常建议GetVolumeInformation函数不适用于我的情况确切地说我直接使用尚未分区的磁盘我通过打开它的句柄CreateFile功能 hDisk Creat
更改 SQL Server 中所有表的所有列的排序规则

我导入了一个包含一些数据的数据库以便与另一个数据库进行比较目标数据库有排序规则Latin1 General CI AS并且源数据库有SQL Latin1 General CP1 CI AS 我确实将源数据库的排序规则更改为Latin1
当内容悬停时变为粗体时防止表格扩展

我正在处理一张表格其中一个要求是每一行在悬停时变为粗体我可以正常工作但是当发生这种情况时列的宽度会发生变化有什么办法可以防止这种情况发生吗 table width 100 border 1px solid ccc margin t
点击后如何等待页面加载

下面是简单的 IE 自动化代码只需输入订单号例如1413105088和邮政编码始终是78759并单击提交按钮然后从结果页面中获取跟踪号码例如017136295201034并将它们放入 C 列它按预期工作但由于 IE 不太可靠
IE8：对象不支持此属性或方法

我知道我的问题是已知的我只是想不出解决问题的方法然而该代码可以在 chrome ff 和 safari 中运行但不能在 ie6 8 中运行我尝试调试代码并弹出以下内容线路 272 错误对象不支持此属性或方法这是我的 js 文
如何在Github操作中指定节点的路径？

我正在尝试使用 Github 的 node js 工作流程在我的存储库上进行自动化测试但是我遇到了困难因为节点是在子目录中设置的而不是在存储库的根目录中我一直在寻找一种方法来指定运行 npm 命令的目录但没有找到任何答案这是工
将 csrf 令牌传递给 Stripe

我正在使用 stripe js 进行条纹支付我需要设置一个回调 webhook 来接收来自 stripe 的请求由于 webhook 是通过 stripe 发布的我已将其标记为csrf excempt 提出这个观点有什么风险吗csrf
离线安装 android 很困难[已过时]

我是非洲的一名学生在我们的土地上实际上存在缓慢且昂贵的互联网连接这就是为什么每当我们听到在线存储库安装软件方法这个词时我们都会感到恐惧该死这通常意味着你必须去别处寻找问题如果没有将 Eclipse 连接到互联网我无法安装
如何在preferenceActivity中设置导航抽屉

在我的应用程序中我的每个活动都带有抽屉但是当我在我的首选项活动中设置抽屉时我的活动工作正常但抽屉没有出现这是我的代码 public class SettingActivity extends PreferenceActivity
如何添加新的进度条来显示总体下载？

代码正在运行但是现在我显示每个文件的下载进度progressBar1 但我想添加到设计器已经添加 progressBar2显示总体下载进度我如何计算并显示它progressBar2 using System using System
除以零错误，如何解决这个问题？

C 新手当下面的 int max 为 0 时我收到除以零的错误我可以明白为什么会发生这种情况但是当 max 为 0 时我应该如何处理这个问题位置也是一个int private void SetProgressBar string
如何在 SailsJS 中选择性地包含 javascript 资源？

在 Sails js 应用程序中如何有选择地包含 javascript 资源例如如果我有一个管理页面并且 admin js 位于 assets js 目录中如何防止 admin js 在公共索引页上加载我知道我可以将 js 移出
护照 Facebook 注销无法使用

我试图实现 Passport Facebook 我在 server js 中的代码如下所示用户点击 Facebook 登录时使用的路由 router get auth facebook passport authenticate face
Elasticsearch-py 相当于别名操作的是什么？

我正在尝试实施倍数指数 https www elastic co guide en elasticsearch guide current multiple indices html multiple indices使用方法弹性搜索DSL
我的代码不适用于输入 1 和 1000 或任何其他更大的输入

当我尝试为输入 1 和 1000 运行此代码时它显示分段错误此代码中的更正是什么 void sorting int sum long int k int main int sum 100000 int L R i j long int
C++ 中的运算符重载

我怀疑我们是否可以做到以下几点假设我创建了两个类的实例A i e obj1 and obj2和班级A有会员功能show 我可以使用以下内容吗 obj1 obj2 show 如果是怎么办如果不是为什么不可能是的这是可能的只需为
如何更改解释器路径并将命令行参数传递给 Linux 上的“可执行”共享库？

这是可执行共享库的最小示例假设文件名 mini c Interpreter path is different on some systems definitely different for 32 Bit machines cons
从单个字符串创建 Spark DataFrame

我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame 具有单列类型StringType 这样 String fizz buzz 将得到一个 DataFrame 其 show 方法如下 fizz buzz 迄今为止我

从单个字符串创建 Spark DataFrame

Update:

从单个字符串创建 Spark DataFrame 的相关文章

随机推荐

热门标签