PySpark - 从 Numpy 矩阵创建 DataFrame

2024-03-03

我有一个 numpy 矩阵：

arr = np.array([[2,3], [2,8], [2,3],[4,5]])

我需要创建一个 PySpark Dataframearr。我无法手动输入值，因为长度/值arr将动态变化，所以我需要转换arr进入数据框。

我尝试了以下代码但没有成功。

df= sqlContext.createDataFrame(arr,["A", "B"])

但是，我收到以下错误。

TypeError: Can not infer schema for type: <type 'numpy.ndarray'>

import numpy as np

#sample data
arr = np.array([[2,3], [2,8], [2,3],[4,5]])

rdd1 = sc.parallelize(arr)
rdd2 = rdd1.map(lambda x: [int(i) for i in x])
df = rdd2.toDF(["A", "B"])
df.show()

输出是：

+---+---+
|  A|  B|
+---+---+
|  2|  3|
|  2|  8|
|  2|  3|
|  4|  5|
+---+---+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Arrays

NumPy

PySpark

apachesparksql

PySpark - 从 Numpy 矩阵创建 DataFrame 的相关文章

Python 中的二进制相移键控

我目前正在编写一些代码以使用音频转换通过激光传输消息文件和其他数据我当前的代码使用 python 中 binascii 模块中的 hexlify 函数将数据转换为二进制然后为 1 发出一个音调为 0 发出不同的音调这在理论上是
为什么 array_merge_recursive 不是递归的？

我最近在我的应用程序中发现了一个由意外行为引起的错误array merge recursive 让我们看一下这个简单的例子 array1 1 gt 1 gt 100 2 gt 200 2 gt 3 gt 1000 3 gt 1 gt 500
如何在 mongo shell 查询中仅投影嵌套数组的匹配字段

我对 mongodb 相当陌生我希望这是一个简单的问题我有一个嵌套架构其中有一个数组字段其中该数组的每个项目都是一个本身具有数组字段的对象例如 gt db mytest insert name a top x 1 y 2 nest
python 语言环境奇怪的错误。这究竟是怎么回事？

所以今天我升级到了 bazaar 2 0 2 我开始收到这条消息顺便说一句我在雪豹上 bzr warning unknown locale UTF 8 Could not determine what text encoding to
keras 预测内存交换无限期增加

我使用keras实现了一个分类程序我有一大组图像我想使用 for 循环来预测每个图像然而每次计算新图像时交换内存都会增加我尝试删除预测函数内部的所有变量并且我确信该函数内部存在问题但内存仍然增加 for img in ima
超时时杀死或终止子进程？

我想尽可能快地重复执行子进程然而有时这个过程会花费太长的时间所以我想杀死它我使用 signal signal 如下所示 ppid pipeexe pid signal signal signal SIGALRM stop handl
Python将csv数据导出到文件中

我有以下运行良好的代码但我无法修剪数据并将其存储在数据文件中 import nltk tweets love this car this view amazing not looking forward the concert def g
将带有两层分隔符的字符串转换为字典 - python

给定一个字符串 s x t1 ny t2 nz t3 我想转换成字典 sdic x 1 y 2 z 3 我通过这样做让它工作 sdic dict tuple j split t for j in i for i in s split n F
如何在 Spyder IDE 中安装 Selenium 包

我刚刚在工作中安装了 Spyder IDE 仅 Spyder 不是整个 Anaconda 并且希望使用 FireFox 自动化我的工作我的问题是如何安装 Selenium 软件包 I figured it out Here is ins
创建并初始化具有连续名称的类的实例

我有一个BankAccount班级我试图创建这个类的多个实例并将它们放入一个数组中例如 accounts Ba1 BankAccount new 100 Ba2 BankAccount new 100 我想初始化包含大量实例的数组假设
if/else 在 while 循环内正确缩进[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我开始学习 Python 编程大约几周了我遇到了一些麻烦下面的代码是一个小程序用于检查列表中是否有偶数如果找到第一个偶数
如何使用 python-gnupg 加密大型数据集而不占用所有内存？

我的磁盘上有一个非常大的文本文件假设它是 1 GB 或更多还假设该文件中的数据有 n每 120 个字符一个字符我在用python gnupg https pythonhosted org python gnupg 对此文件进行加密由
从 subprocess.Popen 获取整个输出

我通过调用 subprocess Popen 得到了一个有点奇怪的结果我怀疑这与我对 Python 的陌生有很大关系 args cscript USERPROFILE tools jslint js USERPROFILE tools j
Apache Spark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过都失败了 org apache spark util TaskCompletionListenerExcep
如何在 Python 中解析损坏的 XML？

我无法影响的服务器发送的 XML 非常损坏具体来说 Unicode WHITE STAR 将被编码为 UTF 8 E2 98 86 然后使用 Latin 1 转换为 HTML 实体表我得到的是 acirc 98 86 9 个字节位于声
升级后 pip 损坏

我做了 pip install U easyinstall 然后 pip install U pip 来升级我的 pip 但是当我尝试使用 pip 时我现在收到此错误 root d8fb98fc3a66 which pip usr lo
在没有numpy的情况下在python中分配变量NaN

大多数语言都有一个 NaN 常量您可以使用它为变量分配值 NaN python 可以在不使用 numpy 的情况下做到这一点吗是的使用math nan https docs python org 3 library math html
python IDLE shell 似乎无法正确处理一些转义

例如 b 退格键打印为四元在下面的示例中显示为但是 n 换行是可以的 gt gt gt print abc bd abc d gt gt gt print abc nd abc d 我在 Vista pro python 2 7 下运行
使用Python的timeit获取“全局名称'foo'未定义”

我想知道执行一条Python语句需要多少时间所以我上网查了一下发现标准库提供了一个名为timeit http docs python org library timeit html旨在做到这一点 import timeit def fo
获取长度为 n 的所有（n-选择-k）组合

我怎样才能获得长度的所有组合按顺序 n从数字列表中例如给定列表 1 2 3 4 并设置n 3 我怎样才能得到这些结果 1 2 3 1 2 4 1 3 4 2 3 4 For combinations of all possible l

随机推荐

以干净的方式打破 javascript 承诺链

我正在尝试将承诺串联起来这样如果一个承诺被拒绝链条就会断裂我跟随一个人的线索上一个SO问题 https stackoverflow com questions 20714460 break promise chain and call
(413) 请求实体太大 |上传预读大小

我使用 NET 4 0 编写了一个 WCF 服务该服务托管在我的 Windows 7 上x64带有 IIS 7 5 的终极系统其中一个服务方法有一个对象作为参数我正在尝试发送一个包含图片的字节只要该图片的文件大小小于约 48KB
使用 webpack 配置 CSS 模块时出错

我正在尝试使用 webpack 配置 CSS 模块但出现错误我已经检查了 stackoverflow 上的其他答案但到目前为止没有一个解决方案对我有用我已经按照文档的建议添加了加载程序但它仍然显示错误这是我的 webpack
在 jQuery mobile 中创建侧边栏

通常当您使用 jQuery mobile 创建 data role page 元素时它会占据整个查看区域因此我不明白如何创建侧边栏我想模拟以下内容但查看源代码没有多大帮助 http jquerymobile com demos
嵌套字典到 MultiIndex pandas DataFrame（3 级）

我想对 3 级嵌套字典执行相当于此操作嵌套字典到多索引数据框其中字典键是列标签 https stackoverflow com questions 24988131 nested dictionary to multiindex dat
来自 CALayer 的 CGImage（或 UIImage）

我创建了一个CALayer 我向图层添加了几个形状但最终我只有一个 CALayer 并且将其添加到 CGImage 时遇到了很多麻烦我找到了一些参考资料 CALayer renderInContext ctx 但我不知道如何实现它以前
我可以拥有在单个 js 文件中发出 Angular 元素的 Angular 库吗？

我开始接触 Angular 6 位并且对 Angular Elements 以及新的库项目非常感兴趣我即将开展一个项目可能需要这两个新功能我需要创建可跨 Web 框架重用的自定义 UI 组件但我也希望获得在 Angular 项目中
忽略版本控制上的文件夹元文件

Unity 创建和删除元文件folders在资源文件夹内在使用版本控制时这可能会产生令人烦恼的情况您可以跳过并转到问题有人创建了一个将被忽略的文件文件夹但忘记忽略该文件夹的元文件 Unity 创建元文件此人将元添加到版本控制中
Android 获取设备区域设置

安装 Android 程序后我检查设备区域设置 String deviceLocale Locale getDefault getLanguage 如果 deviceLocale 在我支持的语言英语法语德语内我不会更改区域设置
如何在 where 子句中使用别名？

我试图在多列文本和备忘录中搜索我不想看到的某些短语和黑名单短语假设如下表 stories id title author publisher content 前任我想找到所有提到在任何领域苹果但将苹果酱列入黑名单的故事 SEL
Apple Silicon 上的 ARCHFLAGS 值正确吗？

在我以前的基于 Intel 的 Mac 上我曾经包含 export ARCHFLAGS arch x86 64 在我的 shell 资源文件中新的基于 ARM 的 Apple 芯片上的正确编译标志是什么 arm arm64 arm 64
WPF：OnCollectionChanged 未触发

使用 VS 2102 NET 4 0 和 MVVM Light 我有以下代码可将 XML 文件中的项目读取到 ObservableCollection 中然后如果集合发生更改使用 IsDirty 标志但 OnCodeCollect
如何将 pandas 列的值除以其他列

我有一个数据框 gt gt gt dt COL000 COL001 QT STK ID RPT Date STK000 20120331 2 6151 2 1467 1 20120630 4 0589 2 3442 2 20120930 4
如何从 django 选择字段中的值检索键？

示例代码如下 REFUND STATUS S SUCCESS F FAIL refund status models CharField max length 3 choices REFUND STATUS 我知道在模型中我可以使用 get
GitHub：是否可以搜索内部代码并按星号排序

我不确定这是否是解决这个问题的正确论坛在 GitHub 上看到不少与搜索相关的 Q A 故在此发帖例如在 Github 项目中搜索代码 https stackoverflow com q 3616221 781695 GitHub 高
带有 Swift 和 iOS 8 Storyboard 的登录屏幕

我在处理 iOS 应用程序的登录流程时遇到了很多麻烦我想要实现的故事板的图像如下我正在尝试实现一个可选的登录屏幕仅当用户首次打开应用程序且尚未登录时才会显示该屏幕目前我将选项卡栏控制器设置为根视图控制器然而我不知道如何处理这些
添加CSS边框改变HTML5网页中的定位

当我在 HTML 5 文档中添加边框时我遇到了页面元素移动的问题我期望包含标题元素灰色出现在屏幕顶部但它似乎占用了内部 div 红色的边距但是如果我向标题添加边框它就会出现在我期望的位置并且红色内部 div 只会稍微移动
sap.ui.core.routing.Router.navTo() 和 sap.m.routing.Targets.display() 有什么区别？

假设我们有一条路线和一个目标 routes pattern modify name modify target master modify targets modify viewName Modify viewId modify viewL
在ansible模板中生成元组变量

我正在尝试设置一个剧本来部署 influxdb 集群一切正常除了我们使用INfluxDB集群客户端 http influxdb python readthedocs org en latest api documentation htm
PySpark - 从 Numpy 矩阵创建 DataFrame

我有一个 numpy 矩阵 arr np array 2 3 2 8 2 3 4 5 我需要创建一个 PySpark Dataframearr 我无法手动输入值因为长度值arr将动态变化所以我需要转换arr进入数据框我尝试了以下代码

PySpark - 从 Numpy 矩阵创建 DataFrame

PySpark - 从 Numpy 矩阵创建 DataFrame 的相关文章

随机推荐

热门标签