spark使用实现

2023-10-31

spark启动:spark-shell --master local[2]

spark实现wc:
val file = sc.textFile("file:///home/hadoop/data/hello.txt")
val a = file.flatMap(line => line.split(" "))
val b = a.map(word => (word,1))
Array((hadoop,1), (welcome,1), (hadoop,1), (hdfs,1), (mapreduce,1), (hadoop,1), (hdfs,1))

val c = b.reduceByKey(_ + _)
    Array((mapreduce,1), (welcome,1), (hadoop,3), (hdfs,2))


sc.textFile("file:///home/hadoop/data/hello.txt").flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_ + _).collect

Flink运行
./bin/flink run ./examples/batch/WordCount.jar \
--input file:///home/hadoop/data/hello.txt --output file:///home/hadoop/tmp/flink_wc_output


Beam运行:
#direct方式运行
mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \
-Dexec.args="--inputFile=/home/hadoop/data/hello.txt --output=counts" \
-Pdirect-runner

#spark方式运行
mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \
-Dexec.args="--runner=SparkRunner --inputFile=/home/hadoop/data/hello.txt --output=counts" -Pspark-runner


#flink方式运行


 

转载于:https://my.oschina.net/zz006/blog/1913795

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

spark使用实现 的相关文章

随机推荐

  • QT窗体禁止拖动缩放:使用setFixedSize方法

    QT窗体禁止拖动缩放 使用setFixedSize方法 需求 我想实现窗体在正常状态 Qt WindowNoState 边框不能通过鼠标拖动改变窗体大小 不影响窗体的正常最大化和还原状态 1024 768 屏幕的初始大小是可使用屏幕的大小
  • Qt5 安装教程

    Qt 是一个支持windows linux android等系统平台的集成开发环境 可以作为C 软件开发界面设计及代码编写的开发工具 并且其具有诸多基于C 底层封装的类库 对于新手程序猿来说 使用起来比较友好 1 官网下载需要安装的版本 h
  • vue 显示txt显示到页面_CDR页面“外”的内容在每个页面外都显示的方法

    前言 正常情况下 CDR软件中页面外的为 桌面 在哪个页面可以看到的 但是有粉丝反应 在CDR 2019版本中 将第一页的内容拖出页面以外时 在第二页面是看不到这些内容的 X4版有时也会这样 今天小编给大家分享CDR X4和2019版页面
  • snprintf函数使用

    int snprintf char restrict buf size t n const char restrict format 函数说明 最多从源串中拷贝n 1个字符到目标串中 然后再在后面加一个0 函数返回值 若成功则返回写入的字符
  • redis set zset key 常用命令

    list 可以重复 set不可以 list 有序 set元素位置无序 key常用命令 1 存储数据 sadd key member member 获取的结果是无序的 2 获取数据 获取全部数据 smembers key 3 随机获取一个数据
  • 书剑宠物疫苗接种管理软件操作教程

    软件简介 书剑宠物疫苗接种管理软件是一款宠物疫苗接种管理的工具 适合宠物诊所使用 具有动物主人建档 宠物疫苗接种登记管理 每日提醒 打印疫苗接种通知卡 自定义短信提醒模板等完善的功能 另外本软件的特色是同时具有手机网页版功能 手机扫一扫即能
  • 神经网络:多层感知机-MLP

    参考别人的 别看了 我自己做笔记玩的 最基本的神经网络 MLP 相应的变种的神经网络 误差反向传播 Back Propagation BP 神经网路 概率神经网络 卷积神经网络 Convolutional Neural Network CN
  • 有一行电文,已按以下规律译成密码: A-Z a-z B-Y b-y C-X c-x,即第一个字母变成第26个字母,第i个字母变成第(26-i+1)个字母,非字母字符不变。要求编程将密码译回原文,并

    有一行电文 已按以下规律译成密码 A Z a z B Y b y C X c x 即第一个字母变成第26个字母 第i个字母变成第 26 i 1 个字母 非字母字符不变 要求编程将密码译回原文 并输出密码和原文 include
  • requests中header的介绍及使用

    文章目录 在我们的学习工作中 写代码做一个简单的接口测试的时候 就会发现 即使是发送了一个post或get请求 但是系统提示我非法参数 无效请求 为什么呢 因为有一些系统或者网站对于请求做出一系列的反爬虫机制 他会效验你的header 是不
  • 多线程伪共享(false sharing)问题分析

    include
  • JUC AQS ReentrantLock源码分析(一)

    Java的内置锁一直都是备受争议的 在JDK 1 6之前 synchronized这个重量级锁其性能一直都是较为低下 虽然在1 6后 进行大量的锁优化策略 但是与Lock相比synchronized还是存在一些缺陷的 虽然synchroni
  • 区块链技术是未来的必选项?

    现如今 区块链技术为人类提供了一个可能的应对方案 我们不能禁止谁去创造什么样的人工智能 但是我们可以通过区块链技术对发展的进度进行追踪与评估 它们可能是全心全意要做造福人类的事情 但问题是很多的过程会出错 如果能够要求大家把制造AI的方法和
  • Linux(三):系统启动、目录结构与文件属性

    目录 系统启动 内核引导 运行 init 运行级别 系统初始化 建立终端 图形模式与文字模式 系统目录结构 运行 指令集合 外部文件管理 系统启动 扩展 临时文件 账户 文件基本属性 更改属性 chgrp 更改属组 chown 更改属主 属
  • 【软件工程基础复习整理】第四章需求分析(4)IDEF1X数据建模

    IDEF1X数据建模 实体时具有相同属性或特征的显示或抽象事实的结合 这个集合的一个元素便称为实体的一个实例 在一张IDEF1X图中 一个实体只能在图中出现一次 可标定联系 子实体的存在依赖于父实体的存在 不完全分类联系 可能存在一个实例属
  • 字典的使用

    文章目录 字典 新建 方法一 方法二 dict 增 方法一 dict key value 方法二 setdefault key value 删 方法一 pop 方法二 popitem 方法三 clear 改 方法一 dict key val
  • 5个可以网上赚钱的副业,聪明人早就开始做了,现在了解也不迟!

    大家好 我是项目小编 每天给大家分享网上赚钱项目和互联网干货 随着互联网发展越来越快 很多的人都想在网络上赚钱 那么网络上有哪些靠谱的赚钱方法呢 下面小编就给大家分享几个网络上常见的正规靠谱的赚钱方法 一 玩游戏赚钱 很多人听到玩游戏都会说
  • 【Matlab代码】图像的小波分解和重构实现

    一 原理 MATLAB中实现图像分解和重构的命令主要有dwt2 idwt2 和 wavedec2 waverec2 其中 进行一层小波分解的命令为dwt2 对应的小波重构命令为idwt2 进行多层分解的命令为wavedec2 对应的重构命令
  • git checkout XXX error: Your local changes to the following files would be overwritten by 解决方案

    0 问题现象描述 当我们在使用git checkout 命令时 如果本地有修改的代码没有提交 则无法切换分支 git会提示你本地有未提交的代码 本地修改会被覆盖 git checkout review0329 error Your loca
  • 阿里榜单&常见标识

    上星期有很多小伙伴们也发现了阿里的Most Popular on Alibaba的变化 但是还是有部份的小伙伴不太了解 今天柒哥带领伙伴们去深入了解一些阿里常见的榜单以及普及下阿里常见一些标志代表的含义 首先让我们先了解下这个Popular
  • spark使用实现

    为什么80 的码农都做不了架构师 gt gt gt spark启动 spark shell master local 2 spark实现wc val file sc textFile file home hadoop data hello