怎么上传文件到spark服务器上,从SFTP服务器加载文件到spark RDD

2023-11-02

您可以以下方式使用spark-sftp库在你的程序:

火花2.x的

Maven的依赖

com.springml

spark-sftp_2.11

1.1.0

SBT依赖

libraryDependencies += "com.springml" % "spark-sftp_2.11" % "1.1.0"

与火花壳

此包可添加使用--packages命令行选项来使用火花。

$ bin/spark-shell --packages com.springml:spark-sftp_2.11:1.1.0

Scala的API

// Construct Spark dataframe using file in FTP server

val df = spark.read.

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

option("inferSchema", "true").

load("/ftp/files/sample.csv")

// Write dataframe as CSV file to FTP server

df.write.

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

save("/ftp/files/sample.csv")

用于火花的1.x(1.5+)

Maven的依赖:例如,要在启动火花壳时它包括

com.springml

spark-sftp_2.10

1.0.2

SBT依赖

libraryDependencies += "com.springml" % "spark-sftp_2.10" % "1.0.2"

与火花壳

此包可添加使用--packages命令行选项来使用火花。例如,在启动火花外壳时,它包含:

$ bin/spark-shell --packages com.springml:spark-sftp_2.10:1.0.2

斯卡拉API

import org.apache.spark.sql.SQLContext

// Construct Spark dataframe using file in FTP server

val sqlContext = new SQLContext(sc)

val df = sqlContext.read.

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

option("inferSchema", "true").

load("/ftp/files/sample.csv")

// Write dataframe as CSV file to FTP server

df.write().

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

save("/ftp/files/sample.csv")

欲了解更多有关spark-sftp你可以参观那里的github页springml/spark-sftp

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

怎么上传文件到spark服务器上,从SFTP服务器加载文件到spark RDD 的相关文章

  • 网安等保

    欢迎关注 全栈工程师修炼指南 公众号 点击 下方卡片 即可关注我哟 设为 星标 每天带你 基础入门 到 进阶实践 再到 放弃学习 花开堪折直须折 莫待无花空折枝 作者主页 https www weiyigeek top 博客 https b
  • xshell连接Linux一直失败解决方法

    文章目录 解决对象 方法 配置 防火墙 关闭Linux防火墙 关闭Windows防火墙 xshell连接Linux一直失败解决方法 解决对象 可能出现以下两个问题 Linux防火墙已关闭和Windows防火墙已经关闭 配置好 vim etc
  • 分布式场景下基于拍卖算法的边缘智能节点任务分配

    摘 要 针对分布式场景下的边缘智能节点任务分配问题 构建了多类型的任务分配模型用于描述边缘智能节点与任务之间的关系 提出了一种基于拍卖算法的任务分配方法 智能边缘节点以动态拍卖的方式获取各自任务 基于拍卖算法的任务分配 智能边缘节点分为拍卖
  • iPad断触问题,iPencil正常,手指断触11个简便解决方法

    最开始上网搜 发现很多人都要此类情况 然后有人说是贴膜 带壳 人体导致的静电 有人说是iPad产品缺陷 有人说是接触不良 这里提供几个简便方法 有人换了三口插头 mac的充电线 链接地线可以放电 可以起到一定作用 简便方法1 一手摸pad屏
  • vue3中script setup获取动态组件component的Dom

    使用
  • MyBatis经典面试题及答案

    1 什么是MyBatis 答 MyBatis是一个可以自定义SQL 存储过程和高级映射的持久层框架 2 讲下MyBatis的缓存 答 MyBatis的缓存分为一级缓存和二级缓存 一级缓存放在session里面 默认就有 二级缓存放在它的命名
  • Composite——设计模式学习笔记

    Composite模式 一 意图 将对象组合成树形结构以表示 部分 整体 的层次结构 Composite使得用户对单个对象操作和组合对象的操作使用具有一致性 二 动机 绘图编辑器和图形捕捉系统图形应用程序中 总是存在简单的图形到简单的组件再
  • 15-Scala使用Option、Some、None,避免使用null

    1 避免null使用 大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是 无 在Java 它是null 在Java 里 null 是一个关键字 不是一个对象 所以对它调用任何方法都是非法的 但是这对语言设计者来说是一件令人疑惑的选
  • java.lang.reflect.UndeclaredThrowableException原因和解决方法

    在 Spring AOP中调用一个方法来进行数据验证 一旦数据验证失败 抛出一个自定义的异常 然而 却抛出了java lang reflect UndeclaredThrowableException 查了一下 因为我的自定义异常继承Exc
  • PHP-Tpthink5学习记录1(后台管理平台)

    Mysql数据库Mac安装 https www cnblogs com yanlin 10 p 9388911 html Tp5安装 方式一 http www thinkphp cn donate download id 874 html
  • Python使用Socket和多线程实现简单的TCP服务端和客户端通信

    本文主要是使用Socket的方式进行Python的网络编程 结合多线程完成服务端同时连接多个客户端的程序 学习了解Socket的主要工作流程 本文目录 一 关于Socket 1 Socket简介 2 Socket的主要类型 3 Socket
  • On-call机制——一种有效运维的方法

    对于On cal这一词 国内并没有特别明确的说法 因为这是个欧美流传过来的叫法 国内与之相接近的意思大致就是值班 再详细一些的说法便是指企业为了快速相应生产故障或者重大事件 在某段时间内指定某个人或者某组人随时待命 类似值班 在故障发生的一
  • 真随机游走的R语言代码

    Rwalk lt vector Rwalk 1 lt rnorm 1 for i in 2 60 Rwalk i lt Rwalk i 1 rnorm 1 ts Rwalk lt ts Rwalk win graph width 4 8 h
  • 在vs2008上面编译CGAL代码,error LNK2019: 无法解析的外部符号 _GetProcessMemoryInfo@12

    在vs2008上面编译CGAL代码 出现error LNK2019 无法解析的外部符号 GetProcessMemoryInfo 12这样的错误 在项目 配置属性 链接器 输入 附加依赖项在附加依赖项窗口中加上Psapi lib 可解决问题
  • 基础编程练习 7-14 求整数段和 (15 分)

    这个题需要掌握的是每5个数换一行 可以用 来进行实现 默认scanf的输入数据是右对齐的 关键在于 当输入正好的 5的倍数个数时 会打印两个换行 请看一下注释 include
  • js阻止默认事件(a标签跳转),阻止事件冒泡

    最近刚学习完js基础 今天发现对js的默认事件阻止以及阻止事件的冒泡有点忘记 于是写这篇文章算是做一个总结 也是加深一下印象 1 阻止默认事件 在html中有很多自带默认事件的元素 很典型的例子 a标签 如果给a标签绑定点击事件 触发后页面
  • C++中的lambda函数详解

    本文主要讲解C 中的lambda函数的使用方法与注意事项 谓词 为了理解lambda函数 首先要理解C 中的谓词是什么 语言中的谓词大部分情况下指一个动作 类似的 在C 中 所谓的谓词 就是指能作出一些动作的对象 换言之 也就是一些可调用的
  • 二、GRE(Generic Routing Encapsulation,通用路由封装协议)

    2 GRE 2 1 概念 GRE Generic Routing Encapsulation 通用路由封装协议 是一种传统的隧道协议技术 GRE对某些网络层协议的数据报进行封装 使这些被封装的数据报能够在IPv4网络中传输 2 2 GRE的
  • 【数模】主成分分析PCA

    主成分分析 Principal Component Analysis PCA 是一种降维算法 它能将多个指标转换为少数几个主成分 这些主成分是原始变量的线性组合 且彼此之间互不相关 其能反映出原始数据的大部分信息 使用场景 一般来说 当研究

随机推荐

  • EFT测试78L05损坏分析及解决方案

    I 问题现象 CQC样机送检时发现 经过EFT 4KV 测试后 发现RS485通讯中断 经检查是78L05 芯片损坏了 断电无法恢复 II 问题分析 本次测试的原理图及损坏器件位置如下 红色标记AU1为损坏的稳压管位置 故障复现 测试方法
  • git 配置

    git config global user name username username 是自己的账户名 git config global user email username email com username email com
  • 并发容器(一):普通容器&&同步容器&&并发容器

    前言 之前我们学习过了集合 并发编程 现在我们来学习并发容器 在并发编程中 经常听到Java集合类 同步容器 并发容器 那么他们之间有哪些分类 优劣呢 我们先把这个框架给分清楚了 这样后面学习的时候不会乱 集合容器 大家熟知的集合类Arra
  • 学习docker基础——docker存储驱动、docker开发镜像基础

    目录 一 docker存储驱动及其选择 二 使用overlay2存储驱动 三 迁移docker根目录 四 docker存储的挂载类型 五 开发docker镜像 一 docker存储驱动及其选择 一 概述 1 docker存储驱动与联合文件系
  • 理解Docker(5):Docker 网络

    本系列文章将介绍 Docker的相关知识 1 Docker 安装及基本用法 2 Docker 镜像 3 Docker 容器的隔离性 使用 Linux namespace 隔离容器的运行环境 4 Docker 容器的隔离性 使用 cgroup
  • 【模拟电路】仪表放大器分析

    仪表放大器电路的典型结构如图1所示 它主要由两级差分放大器电路构成 其中 运放A1 A2为同相差分输入方式 同相输入可以大幅度提高电路的输入阻抗 减小电路对微弱输入信号的衰减 差分输入可以使电路只对差模信号放大 而对共模输入信号只起跟随作用
  • 离线安装ceph集群(ceph-13.2.10)

    记录 332 场景 在CentOS 7 9操作系统上 使用ceph的rpm mimic的ceph 13 2 10安装ceph集群 应用ceph对象存储 ceph object store 应用ceph块设备 ceph block devic
  • 【视频解读】Window上安装和使用autogluon V0.7

    1 使用conda安装的python环境 教程使用的是极简版miniconda 由于我们的电脑中安装了anaconda 所以不需要进行进一步安装 python版本为3 9 博客里面有anaconda和python版本的对应关系 注意查看版本
  • conda create -n python 3.6_conda create 怎么创建纯净的 Python3.6 环境?

    刚接触 conda 安装了 Anaconda3 想用 conda create 命令创建一个只含标准模块和几个必需第三方模块 如 pip wheel 的 Python3 6 环境 使用命令 conda create n test pytho
  • 核心思想_[转载]用最浅显的语言解释佛法的核心思想:缘起性空(即般若)

    本文是在 用最浅显的语言解释佛法的核心思想 缘起性空http tieba baidu com p 3074939669 一文基础上 重新修改而成 有兴趣的可以对比 参考原文 从缘起性空 到三界唯心 万法唯识 到涅槃寂静 直到大乘如来藏思想
  • 13天带你了解C++ ---DAY10 C++之vector

    目录 1 string容器 2 构造函数和析构函数的相关操作 3 迭代器 4 容量相关 5 元素访问相关 6 元素遍历相关 7 元素操作相关 8 vector模拟实现 1 string容器 vector容器是C 标准模板库提供的管理任意元素
  • mysql导入csv中文数据乱码问题分析与解决

    摘要 解决csv文件向mysql导入含有中文数据 导入后中文出现乱码问题 结论 在导入含中文字符时注意两个问题 第一 告诉Mysql文件的编码是什么 第二 数据库表中的列编码要设置成支持中文的字符集 导入源数据 SQL代码 LOAD DAT
  • mysql语句

    各种sql语句 一 引言 二 sql基础语句 1 sql新增语句 2 sql查询语句 3 sql修改语句 4 sql删除语句 5 sql其他语句 5 1 sql倒序 正序查询 5 2 sql表行数查询 三 sql较有深度语句 1 sql主从
  • Linux ip地址报错(Temporary failure in name resolution)活检地址检查

    1 项目健康检查报错 报错信息 java net UnknownHostException Temporary failure in name resolution 解决办法 hostname 查看主机名 hostname i 查看本机对应
  • PHPstorm必备插件推荐

    1 env files support 对 env 文件的支持 2 ignore 对 ignore 文件的支持 3 Ideolog 对 log 文件的支持 4 Chinese Simplified Language Pack 中文语言包 官
  • 抖音视频号情感类短视频爆火,背后有什么特点?有什么值得借鉴

    有一些人渐渐不联系了 不是因为淡了远了 而是没有合适的身份陪伴 没有合适的理由联络 没有合适的机会见面 只能放在心里偶尔回忆 经常想念 明明只是一张动图 但却可以让人自动脑补了早期抖音情感博主在线念白的腔调 没错 这些曾经在抖音快手风靡一时
  • 阿里犸良导出的json文件怎么使用

    犸良是什么 犸良作为一站式动效制作平台 通过海量的动效素材以及可视化编辑能力 帮助零基础的用户轻松完成动效制作 支持全平台iOS Android H5 小程序 无论是营销展位 活动页面 空状态还是产品icon 让动效更简单 官网地址 htt
  • pear-admin-flask开源后台模板(适合于毕设)

    Pear Admin Flask 开 箱 即 用 的 Flask 快 速 开 发 平 台 预 览 官 网 群聊 社区 项目简介 Pear Admin Flask 基于 Flask 的后台管理系统 拥抱应用广泛的python语言 通过使用本系
  • C# 如何向String[]字符数组插入数据

    C 如何向String 字符数组插入数据 思路 了解 由于数组是非动态的 不能进行动态的添加 思路 首先将string 字符数组转换成list 第二给list添加数据 最后把list转换成string 数组 String arrs new
  • 怎么上传文件到spark服务器上,从SFTP服务器加载文件到spark RDD

    您可以以下方式使用spark sftp库在你的程序 火花2 x的 Maven的依赖 com springml spark sftp 2 11 1 1 0 SBT依赖 libraryDependencies com springml spar