python语法-pyspark实战(数据输入)

2023-10-27

python语法-pyspark实战(数据输入)

1.演示通过pyspark代码加载python对象数据(基本数据结构)转为RDD对象,即数据输入
parallelize()方法

"""
演示通过pyspark代码加载数据,即数据输入
"""

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 通过parallelize方法将python对象(数据结构)加载到spark内,成为RDD对象
rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize((1, 2, 3, 4, 5))
rdd3 = sc.parallelize("abcdefg")
rdd4 = sc.parallelize({1, 2, 3, 4, 5})
rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"})

# 如果要查看RDD里面有什么内容,需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())

sc.stop()
# 用过textFile方法,读取文件数据加载到Spark内,成为RDD对象

2.演示通过pyspark代码加载文件数据转为RDD对象,即数据输入
textFile()方法

"""
演示通过pyspark代码加载数据,即数据输入
"""

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 用过textFile方法,读取文件数据加载到Spark内,成为RDD对象
rdd = sc.textFile("测试.txt")
print(rdd.collect())

sc.stop()

参考内容:
python语法-pyspark实战(基础知识)
黑马程序员-python基础

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python语法-pyspark实战(数据输入) 的相关文章

随机推荐

  • MathType7.4mac最新版本数学公式编辑器安装教程

    MathType7 4中文版是一款功能强大且易于使用的公式编辑器 该软件可与word软件配合使用 有效提高了教学人员的工作效率 避免了一些数学符号和公式无法在word中输入的麻烦 新版MathType7 4启用了全新的LOGO 带来了更多对
  • Boost asio的async_write函数

    Boost asio是一个异步网络通信的库 其中async write是一个比较常用的函数 但是 如果没有正确的使用 就可能会出现一些意想不到的潜在Bug 例如下面的代码 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1
  • java ---学生信息管理系统

    Student 学生类 package 学生信息管理系统 学生类 public class Student 学号 private String sid 姓名 private String name 年龄 private String age
  • 不重装系统解决win10更新错误0x800f0922

    最近win10突然就不能更新了 一直提示无法完成更新 正在撤销更改 尝试了以下处理都无效 1 网络问题 2 net framework没有启用 3 sfc scannow 和 DISM exe Online Cleanup image Sc
  • 快速排序和堆排序算法的比较与详解

    快速排序 原理 1 通过partion函数将列表最左边的数归位 归位的这个数左边的数都是比他小的 右边都是比他大的数 2 通过partion函数递归 将每一个数归位 partion函数解读 关键问题 left
  • vue+element ui 上传文件,显示的文件参数内容只有uid

    现象 使用elment ui的el upload组件上传文件 会导致上传的文件参数file里面只包含uid 没有其他信息 file uid 52688455 其他参数 xxxx 过程 在网上查资料 首先发现 是没有设定content typ
  • CSS旋转的环形文字效果

  • 微积分

    对于微积分已经是过去式了 早就不知道说的是什么了 今天学习一波 微积分 Calculus 微积分是高等数学中研究函数的微分 积分以及有关概念和应用的数学分支 它是数学的一个基础学科 内容主要包括极限 微分学 积分学及其应用 微分学包括求导数
  • 利用Puppeteer实现验证码网站登录

    Puppeteer puppeteer是由Google官方推出的一个node库 可以启动Chromium浏览器模拟人为操作 类似于PhantomJS 这为爬虫和自动化测试提供了便利 流程 登录流程很简单 启动puppeteer打开目标网站
  • ABAP 传入数据到EXCEL自编函数

    DATA excel TYPE ole2 object workbook TYPE ole2 object sheet TYPE ole2 object cell TYPE ole2 object column TYPE ole2 obje
  • Servlet 清除Cookie 方法

    一 删除已知名称的Cookie 方案 重新建立同名立即删除类型的Cookie Cookie newCookie new Cookie username null 假如要删除名称为username的Cookie newCookie setMa
  • 工作流简介及其6种常用的工作流引擎

    先说说四个非PetriNet调度算法的开源引擎 4 OBE的引擎调度机制 4 Shark的引擎调度机制 5 OSWorkflow的引擎执行机制 6 JBpm的引擎执行机制 6 再说说两个PetriNet调度算法的开源引擎 9 YAWL的引擎
  • 图说函数模板右值引用参数(T&&)类型推导规则(C++11)

    图说函数模板右值引用参数 T 类型推导规则 C 11 见下图 规律总结 只要我们传递一个基本类型是A 的左值 那么 传递后 T的类型就是A 形参在函数体中的类型就是A 只要我们传递一个基本类型是A的右值 那么 传递后 T的类型就是A 形参在
  • 解析Cloudsim中,获取SLA指标的函数:getSlaMetrics()

    protected static Map
  • 如何使用 Humata.ai:快速理解和总结文献

    链接 Humata 简介 Humata ai 是一个人工智能驱动的文献阅读助手 可以帮助用户快速理解和总结文献 它可以提取文献的关键信息 并以简洁易懂的语言生成摘要 此外 Humata ai 还可以回答用户关于文献的问题 帮助用户深入理解文
  • 选择一家公司看哪些条件

    1 薪资 公司谈的工资都是税前 一般我会认为年薪工资指的就是一年的税前收入 如果有加班费可以把加班费也算上 每月加班时间是有上限的 可以根据个人习惯计算 然后是年终奖 则税前年薪 税前基本工资 加班费 年终奖 你看工资银行卡一年的薪资到账记
  • xcode报错:Command /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/b

    今天使用xcode编译工程发现一个问题 这里记录一下防止忘记 xcode报错 Command Applications Xcode app Contents Developer Toolchains XcodeDefault xctoolc
  • 本地部署Stable Diffusion

    效果 遇到的坑 报错 RuntimeError LayerNormKernelImpl not implemented for Half 解决方案 产生报错的原因是因为显卡不支持half float的数据类型 所以在启动项set COMMA
  • 微信小程序(由浅到深)

    文章目录 一 项目基本配置 1 项目组成 2 常见的配置文件解析 3 app json全局的五大配置 4 单个页面中的page配置 5 App函数 6 tabBar配置 二 基本语法 事件 单位 1 语法 2 事件 3 单位 三 数据响应式
  • python语法-pyspark实战(数据输入)

    python语法 pyspark实战 数据输入 1 演示通过pyspark代码加载python对象数据 基本数据结构 转为RDD对象 即数据输入 parallelize 方法 演示通过pyspark代码加载数据 即数据输入 from pys