Metastore_db 不是在 Windows 7 中使用 apache Spark 2.2.1 创建的

2023-12-25

我想使用最新的读取 CSV 文件Apache Spark Version i.e 2.2.1 in Windows 7 via cmd但无法这样做，因为存在一些问题metastore_db。我尝试了以下步骤：

1. spark-shell --packages com.databricks:spark-csv_2.11:1.5.0 //Since my scala 
                                                              // version is 2.11  
 2. val df = spark.read.format("csv").option("header", "true").option("mode", "DROPMALFORMED").load("file:///D:/ResourceData.csv")// As //in latest versions we use SparkSession variable i.e spark instead of //sqlContext variable

但它引发了我以下错误：

  Caused by: org.apache.derby.iapi.error.StandardException: Failed to start database 'metastore_db' with class loader o
.spark.sql.hive.client.IsolatedClientLoader  

Caused by: org.apache.derby.iapi.error.StandardException: Another instance of Derby may have already booted the database

我可以在 1.6 版本中读取 csv，但我想在最新版本中读取。谁能帮我这个？？我被困了很多天了。

打开 Spark Shell

spark-shell

通过 SQLContext 传递 Spark Context 并将其分配给 sqlContext 变量

 val sqlContext = new org.apache.spark.sql.SQLContext(sc) // As Spark context available as 'sc'

根据您的要求读取 CSV 文件

val bhaskar = sqlContext.read.format("csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load("/home/burdwan/Desktop/bhaskar.csv") // Use wildcard, with * we will be able to import multiple csv files in a single load ...Desktop/*.csv

收集 RDD 并打印

bhaskar.collect.foreach(println)

Output

_a1 _a2     Cn      clr clarity depth   aprx price  x       y       z
1   0.23    Ideal   E   SI2     61.5    55   326    3.95    3.98    2.43
2   0.21    Premium E   SI1     59.8    61   326    3.89    3.84    2.31
3   0.23    Good    E   VS1     56.9    65   327    4.05    4.07    2.31
4   0.29    Premium I   VS2     62.4    58   334    4.2     4.23    2.63
5   0.31    Good    J   SI2     63.3    58   335    4.34    4.35    2.75
6   0.24    Good    J   VVS2    63      57   336    3.94    3.96    2.48

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

csv

apachespark

apachesparksql

Metastore_db 不是在 Windows 7 中使用 apache Spark 2.2.1 创建的的相关文章

DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
Scala [2.11.6] 编译 Stackoverflow 错误（似乎对迄今为止发现的建议有抵抗力）

scala版本 2 11 6 我当然尝试过clean很多次以及update 不确定是否有clean deeper刷新 jar 库真正奇怪的是这种情况同时发生在两台机器上其中一台在没有执行任何特殊操作的情况下恢复了而另一台仍然没有恢复
从 CSV 中去除额外的文本限定符

我有一个 CSV 其中某些字段由符号分隔作为文本限定符参见下面的例子请注意每个整数例如 1 2 3 等都应该是一个字符串合格的字符串被符号包围 1 2 3 qualifiedString1 4 5 6 7 8 9 10 11
使用 Apache Commons lineIterator 时出现 OutOfMemory 错误

我正在尝试使用 Apache Commons 逐行迭代 1 2GB 文件FileUtils lineIterator 然而一旦LineIterator calls hasNext 我得到一个java lang OutOfMemoryErr
为什么 sbt 在 build.sbt 工作时使用 Build.scala 报告“未找到：值 PlayScala”？

我正在创建一个多模块 sbt 项目其结构如下
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
在 Scala 中设计方便的默认值映射

我发现自己使用了很多嵌套映射例如 Map Int Map String Set String 并且我希望在访问新密钥时自动创建新的 Map Set 等例如像下面这样 val m m 1992 foo bar 请注意如果不需要我不想
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
Scala UpperBound 和 LowerBound 概念

下面是我尝试运行的代码 class Student def printDetails println I am a student def printSomeOtherDetails println I love Studying clas
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
源值 1.5 的错误已过时，将在未来版本中删除

我使用 scala maven plugin 来编译包含 scala 和 java 代码的项目我已经将源和目标设置为1 7 但不知道为什么maven仍然使用1 5 这是我在 pom xml 中的插件
对 HList 进行协变过滤

我打算以协变方式过滤 HList 我也想包含子类所以协变滤波器Foo应捕获以下元素Foo也Bar 我已经构建了这个例子来尝试 lt lt 看看它是否做了我想做的事情 http scastie org 6465 http scastie o
将 CSV 文件中的数字数据更改为文本

下面的查询是抓取数据并创建一个 CSV 文件我遇到的问题是名为 SPLE 的源在数据库中存储数字为 0 1 50 的数据然而在 CSV 中这些数字被收集在 CSV 中我希望在创建 CSV 时这些数字能够代表诸如以下的单词 0 T
Scala 除以零会产生不同的结果

我对 Scala 如何处理除以零感到困惑这是 REPL 代码片段 scala gt 1 0 java lang ArithmeticException by zero 33 elided scala gt 1 toDouble 0 toD
Scala 中的超时未来

假设我有一个函数它调用一个阻塞可中断的手术我想在超时的情况下异步运行它也就是说我想在超时到期时中断该功能所以我正在尝试做这样的事情 import scala util Try import scala concurrent Fut
使用 Scala Slick 创建组合主键

我正在尝试使用两列作为 Scala Slick 表的主键这是我的表的定义方式 class NbaPlayerBoxScoreTable tag Tag extends Table NbaPlayerBoxScore tag player
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
将工作表保存为 CSV，且 Excel 公式完好无损

我完全使用 VBA for Excel 工作我的解决方案必须完全是程序化的而不是用户驱动的该解决方案的要求是用户启动一个宏来获取工作簿并将 8 个工作表保存到单独的 CSV 文件中保留公式并丢弃公式分辨率我有一系列工作表 sht
如何使用 aerospike 加载器在 aerospike 中加载嵌套的 csv 文件？

我已将 JSON 文件转换为 CSV 格式现在使用 aerospike 加载器将 CSV 加载到 Aerospike 中我可以为简单的结构执行此操作但如何修改 allDatatype json 的内容以在 Aerospike 中加载嵌
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove

随机推荐

用 NA 填充时间序列中缺失的月份[重复]

这个问题在这里已经有答案了我有数据集年月数字 2002 01 2 392909 2002 02 2 496800 2002 03 2 341897 2002 04 1 665625 2002 05 2 398261 2003 01 1
Chrome 扩展：异步查询选项卡

我有两个变量被设置为函数的返回值这些函数是获取选项卡的 URL 和对实际选项卡对象的引用并将它们存储在变量中我有一些代码 function init var url getUrl var tab getTab function ge
提取标签之间的字母

谁能指导我如何提取标签之间的单词例如 hello in C 我猜他是想在之间说一句话tags 您应该使用正则表达式来实现相同的目的
c#：如何确定可滚动控件的 ScrollBar 当前是否显示？

有没有办法让我检查控件的滚动条当前是否显示我想使用它这样我就可以确定如何调整 Scrollable 控件的子级的大小这在某种程度上取决于 ScrollBar 是否显示 Scrollable 控件可以动态调整大小对于具有 AutoSc
如何在 Swift 中传递具有关联类型（通用协议）的协议作为参数？

我必须将接口作为参数传递给函数接口是通用的也称为具有关联的类型我找不到一个好的方法来做到这一点这是我的代码 protocol IObserver class typealias DelegateT class Observer IO
Ninject：单例绑定语法？

我正在将 Ninject 2 0 用于 Net 3 5 框架我在单例绑定方面遇到困难我有课UserInputReader它实现了IInputReader 我只希望创建该类的一个实例 public class MasterEngineMo
按可以为 None 的属性对列表进行排序

我正在尝试使用对对象列表进行排序 my list sort key operator attrgetter attr name 但如果任何列表项有attr None代替attr whatever 然后我得到一个TypeError unord
@错误抑制运算符和set_error_handler

我遵循良好的编程实践并将 PHP 错误记录到文件中而不是将其显示给用户我用set error handler 为了那个原因现在问题来了例如我有一个地方 file exists some file that is outside
具有分类变量的 statsmodels 中的聚类标准误差 (Python)

我想在使用分类变量和聚类标准误差的 statsmodels 中运行回归我有一个数据集其中包含机构治疗年份和入学情况治疗是一个虚拟变量机构是一个字符串其他都是数字我已确保删除所有空值 df dropna reg model s
在r中将地图叠加在3D曲面地图之上

我使用 rgl surface 创建了一个 3d 地图主要遵循 Shane 在中的回答this https stackoverflow com questions 1896419 plotting a 3d surface plot wi
如何在firefoxQuantum（浏览器版本57）中安装sqlite管理器插件

我尝试在 Firefox 中安装 sqlite 管理器插件但它显示错误您的 Firefox Quantum 浏览器不兼容我的 Firefox 浏览器版本是 57 0 4 此扩展取决于嵌入的 sqlite 引擎的接口在火狐浏览器中由
使用 webdriver 的 Chrome 和 IE 驱动程序配置文件

我的项目需要某些 cookie 才能访问该应用程序对于 Firefox 驱动程序我使用 firefox 配置文件我用于手动测试的 ff 配置文件因为它具有我想要的所有 cookie 来运行脚本如何在 Chrome 和 IE 浏览器
Illustrator/SVG 到 JavaScript 的工作流程？（模板库？）

在 Illustrator 中另存为 SVG 时这是典型的结果
无法使用 YAML Spring Profile 禁用 @Cacheable

我创建了一个名为 mycache 的缓存该缓存应用于我的服务中的方法例如 Cacheable value mycache public String getValue String something breakpoint here 我
WKT中如何处理Circle？

我有一个 json 对象区域圆形 28 625360369528934 77 2227479486792 3135 6 如何使用WKTreader解析它你需要回到写下它的人那里并解释一下CIRCLE不属于WKT标准 http www
存储设置的最佳实践

我有一个相当大的 C 应用程序在 Windows 上没有计划其他平台它当前将所有设置甚至某种地址存储在 Windows 注册表中有时这很不方便因为用户很难更改注册表中的条目我希望对设置进行版本控制以便设置始终与当前代码匹配
SPARQL 对聚合值应用 MAX [重复]

这个问题在这里已经有答案了我有这样的疑问 prefix
R闪亮-带有选项的弹出窗口

我正在创建一个查询 SQL 数据库的闪亮应用程序如果查询的数据有两个日期的条目我想警告用户此外我希望用户能够选择要查询的数据集这是一个例子 Server Create example data set seed 10 Measur
（如何）终端服务/远程桌面可以用来共享Access数据库吗？

我以前使用过的唯一类型的远程桌面应用程序是 VNC 查看器我对这种应用的理解是当多个用户登录同一个VNC服务器时他们共享键盘鼠标和桌面因此只有一个人可以实际使用计算机而其他用户可以观看正在发生的事情这显然有它自己的用途我
Metastore_db 不是在 Windows 7 中使用 apache Spark 2.2.1 创建的

我想使用最新的读取 CSV 文件Apache Spark Version i e 2 2 1 in Windows 7 via cmd但无法这样做因为存在一些问题metastore db 我尝试了以下步骤 1 spark shell pa

Metastore_db 不是在 Windows 7 中使用 apache Spark 2.2.1 创建的

Metastore_db 不是在 Windows 7 中使用 apache Spark 2.2.1 创建的 的相关文章

随机推荐

热门标签

Metastore_db 不是在 Windows 7 中使用 apache Spark 2.2.1 创建的的相关文章