将字符串 RDD 转换为 Int RDD

2024-03-12

我是 scala 新手..我想知道在 Spark 中使用 scala 处理大型数据集时是否可以读取为 int RDD 而不是 String RDD

我尝试了以下方法：

val intArr = sc
              .textFile("Downloads/data/train.csv")
              .map(line=>line.split(","))
              .map(_.toInt)

但我收到错误：

错误：值 toInt 不是以下成员Array[String]

我需要转换为 int rdd 因为接下来我需要执行以下操作

val vectors = intArr.map(p => Vectors.dense(p))

这要求类型为整数

非常感谢任何形式的帮助..提前致谢

据我了解，一行应该创建一个向量，所以它应该是这样的：

val result = sc
           .textFile("Downloads/data/train.csv")
           .map(line => line.split(","))
           .map(numbers => Vectors.dense(numbers.map(_.toInt)))

numbers.map(_.toInt)会将数组的每个元素映射为 int，因此结果类型将为Array[Int]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

将字符串 RDD 转换为 Int RDD 的相关文章

使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
类型不匹配;发现：长需要：Int

我有一个应该返回 Long 的方法但我收到一个错误 type mismatch found Long required Int 方法如下 def getRandom IMEI from Long to Long Long if from
帮助我理解这段 Scala 代码：scalaz IO Monad 和隐式

这是后续this https stackoverflow com questions 7404495 help me understand this scala code scalaz io monad问题这是我试图理解的代码它来自ht
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
自动将通配符导入重构为 IntelliJ 中的显式导入（适用于 Scala/Java）

考虑下面的代码是否可以让 IntelliJ 自动将每个通配符导入重构为显式导入无论范围内使用什么例如import scalatags JsDom all into import scalatags JsDom all ol li di
Scala：如何定义带有变量参数列表的匿名函数？

在 Scala 中如何定义接受可变数量参数的匿名函数 scala gt def foo blah Int gt 3
为什么 astyanax (java) 无法识别我的 scala 案例类参数列表中的 @Id 注解值？

所以这是我的困境我有一个域模型其中有一堆 scala 中的案例类例如User and Organization 在我的数据访问层 dao 存储库等中我使用 astyanax 来自 netflix 的 java 库及其实体持久器将
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
如何通过 Scala REPL 使用第三方库？

我已经下载了Algebird我想尝试一些事情Scala 解释器使用这个库我该如何实现这一目标当然您可以使用 scala cp 无论如何并手动管理您的依赖项但这变得非常乏味尤其是当您有多个依赖项时更灵活的方法是使用sbt http
将额外的参数传递给多态函数？

我有一个多态函数可以将列表转换为集合 import shapeless PolyDefns gt import shapeless val lists List 1 2 List A B List 1 1 2 2 HNil object
从会话中读取数据时如何发出加特林捕获请求？

根据加特林文档 http gatling io docs 2 1 7 session session api html 我可以在执行场景时使用会话属性但是每次我在场景中使用函数文字访问会话时都会遇到以下异常 error java la
Scala 'null' 是否算作另一种类型的实例？

我有这个代码 class MyLinkedList T h T tail MyLinkedList T def prepend v T MyLinkedList T new MyLinkedList v this 我想知道我如何可以将第二个
手动排除sbt中的一些测试类

我通常在 CI 中执行以下命令清理更新编译测试发布但是我想从 sbt 命令行中排除 1 个或几个测试类我怎样才能做到这一点我不想更改我的代码以使用忽略等两种可能的选择 test only See http www scala
获取两个顶点之间的边属性值时出现 ClassCastException

我正在尝试获取两个顶点之间的边缘属性值并低于异常 java lang ClassCastException 无法将 java lang String 转换为 scala runtime Nothing 环境内存中的泰坦 Code val
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
Scala：将整个列表的 Either 与每个元素的 Either 组合

我有一个 Either 列表它代表错误 type ErrorType List String type FailFast A Either ErrorType A import cats syntax either val l List
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h

随机推荐

spring-context 和 spring-core 依赖项有什么区别？

您好我是 Spring 和 Maven 世界的新手我想知道这两个依赖项之间有什么区别这是一个简单的问题我的方法有问题pom xml文件所以我想知道一切提前致谢这些实际上是许多 Spring 框架模块中的两个您可以使用此站点轻
用 BeautifulSoup 替换 html 标签

我目前正在使用 BeautifulSoup 重新格式化一些 HTML 页面但遇到了一些问题我的问题是原始 HTML 有这样的内容 li p stff p li and li div p Stuff p div li 也 li div p
在 C# 中将图像转换为纯黑白的最快方法是什么？

在有人因为我没有检查其他帖子而责骂我之前我已经这样做了我对现有的将图像转换为灰度的技术之一有一个具体问题我已经阅读了关于 SO 的其他帖子基本上复制了教程中的技术 3 ColorMatrix 这个网站 http www switch
R Shiny：当行顺序发生变化时，如何根据所选行选择DataTable页面？

我想根据在传单地图上单击的标记来突出显示闪亮应用程序中数据表的一行为此我必须更改页面并转到第 5 页例如如果选择了第 46 行如果我不更改行顺序它就可以正常工作如果我对行重新排序例如按升序排列 val 我找不到转到所选行对应
GDB：警告：在重载方法上设置了多个断点

anisha linux dopx gt g Wall pedantic breakpoints cpp g anisha linux dopx gt gdb a out gdb b X X Breakpoint 1 at 0x400ac1
Jest 遇到意外标记：SyntaxError: Unexpected Token {

Issue 当我在另一台机器上运行代码时遇到此错误时我正在使用 Jest 和 Enzyme 运行测试当我跑步时npm test只运行jest coverage verbose每次都会出现这个错误但是当我在工作笔记本电脑上运行它时这
将 Git 存储库保留在 Eclipse 工作区内部还是外部更好？

我是一名典型的 Eclipse Subversion 用户开始迁移到 Git 我研究了 git 的基本概念并决定一开始坚持每个存储库一个项目的方法以保持事情简单不过我仍然无法决定将每个项目的存储库放置在哪里我花了很多时间查看答案
Swagger C# 枚举生成 - 底层 int 值与原始枚举不匹配

我在服务器上创建了一个枚举其中手动设置了整数值而不是从 0 开始默认增量 public enum UserType Anonymous 0 Customer 10 Technician 21 Manager 25 Primary 30
Autofac 与 Owin

我有一个问题Autofac 该文档明确指出当使用 Web API 2 和 OWIN 时您must not use GlobalConfiguration Configuration任何地方 OWIN 集成中的一个常见错误是使用 Glob
Hive 将字符串转换为字符数组

例如如何将字符串转换为字符数组 abcd gt a b c d 我知道分割方法 SELECT split abcd a b c d 最后一个空格有错误吗或任何其他想法这实际上不是一个错误蜂巢分割功能 https github com
TortoiseSVN 清理实际上做了什么？

TortoiseSVN 清理实际上做了什么我还没有找到模式但我经常被要求在尝试提交代码时进行清理如果 TortoiseSVN 知道它什么时候变脏为什么它不自己运行清理呢 Edit 我认为它不是自动的因为它需要中止操作并解锁 pa
使用 XmlCompiledTransform 合并两个 XPathDocument

我不可能是第一个这样做的人使用 XSLT 合并两个文档似乎是一种常见的做法但是我似乎无法在互联网上找到任何示例我有两个 XML 文档它们作为 XML 字符串从 SQL Server 中检索我想用XslCompiledTransf
为什么图像要旋转并调整大小而不是仅调整大小？

我想调整图像大小而不旋转图像这是我的代码 Image temp image getScaledInstance width height ImageScale SCALE SMOOTH BufferedImage resized new
如何增加 kubernetes 工作节点中临时存储的大小

我们使用 kubeadm 部署集群 1 个主节点 4 个工作节点 kubectl describe node worker1 Name worker1 Roles
Objective-C 块和变量

我今天开始使用 Objective C 块我写了以下代码 NSArray array 25 abc 7 2 void print NSUInteger index NSUInteger index NSLog array index fo
如何在 pandas 数据框中使用 ast.literal_eval 并处理异常

我有一个dataframe有一列包含tuple数据作为字符串例如 5 6 我需要将其转换为元组结构一种方法是使用 ast literal eval 我就是这样使用的 df Column df Column apply ast liter
修改并添加netcdf属性

我有一个带有以下内容的 netCDF 文件有关维度之一的信息 int time time 100 units calendar year as Y ChunkSizes 1048576 int 有没有可用的工具例如nco 可以像这样修改
无法将 APK 上传到 Google Play

无法将 APK 上传到 Google Play 已经尝试过其他浏览器和电脑无论如何都无法上传总是得到将新 APK 上传到生产环境上传失败我们无法保存您的更改请再试一次上传另一个APK 似乎是谷歌部分的东西快速搜索发现现在很多
遍历设置文件

我目前正在开发一个 VSTO 项目我有 5 个项目 settings文件 Settings settings 默认 s201213 settings s201314 settings s201415 settings s201516 se
将字符串 RDD 转换为 Int RDD

我是 scala 新手我想知道在 Spark 中使用 scala 处理大型数据集时是否可以读取为 int RDD 而不是 String RDD 我尝试了以下方法 val intArr sc textFile Downloads data

将字符串 RDD 转换为 Int RDD

将字符串 RDD 转换为 Int RDD 的相关文章

随机推荐

热门标签