Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作

2023-11-16

一、案例说明

现有一电商网站数据文件，名为buyer_favorite1，记录了用户对商品的收藏数据，数据以“\t”键分割，数据内容及数据格式如下：
在这里插入图片描述

二、前置准备工作

项目环境说明

Linux Ubuntu 16.04

jdk-7u75-linux-x64

scala-2.10.4

kafka_2.10-0.8.2.2

spark-1.6.0-bin-hadoop2.6

开启hadoop集群，zookeeper服务，开启kafka服务。再另开启一个窗口，在/apps/kafka/bin目录下创建一个topic。

/apps/zookeeper/bin/zkServer.sh start 
cd /apps/kafka  
bin/kafka-server-start.sh config/server.properties &

cd /apps/kafka  
bin/kafka-topics.sh \  
--create \  
--zookeeper localhost:2181 \  
--replication-factor 1 \  
--topic kafkasendspark \  
--partitions 1

三、编写程序代码创建kafka的producer

1、新创一个文件folder命名为lib，并将jar包添加进来。（可以从我的博客主页资源里面下载）

2、进入以下界面，移除Scala Library。

在这里插入图片描述

3、操作完成后，再点击Add Library选项

在这里插入图片描述

4、进入以下界面

在这里插入图片描述

5、点击完成即可

6、最后创建如下项目结构的文件

在这里插入图片描述

四、编写代码，运行程序

编写生产者代码

package my.kafka;  
import java.io.BufferedReader;  
import java.io.File;  
import java.io.FileNotFoundException;  
import java.io.FileReader;  
import java.io.IOException;  
import java.util.Properties;  
import kafka.javaapi.producer.Producer;  
import kafka.producer.KeyedMessage;  
import kafka.producer.ProducerConfig;  
public class KafkaSend {  
    private final Producer<String, String> producer;  
  
    public final static String TOPIC = "kafkasendspark";  
  
    public KafkaSend(){  
        Properties props = new Properties();  
        // 此处配置的是kafka的端口  
        props.put("metadata.broker.list", "localhost:9092");  
        // 配置value的序列化类  
        props.put("serializer.class", "kafka.serializer.StringEncoder");  
        // 配置key的序列化类  
        props.put("key.serializer.class", "kafka.serializer.StringEncoder");  
        props.put("request.required.acks", "-1");  
        producer = new Producer<String, String>(new ProducerConfig(props));  
    }  
  
    void produce() {  
        int lineNo = 1;  
        File file = new File("/data/case6/buyer_favorite1");  
        BufferedReader reader = null;  
        try {  
            reader = new BufferedReader(new FileReader(file));  
            String tempString = null;  
  
            while ( (tempString = reader.readLine()) != null ) {  
                String key = String.valueOf(lineNo);  
                String data = tempString;  
                producer.send(new KeyedMessage<String, String>(TOPIC, key, data));  
                System.out.println(data);  
                lineNo++;  
  
                Thread.sleep(100);  
  
            }  
        } catch (FileNotFoundException e) {  
            System.err.println(e.getMessage());  
        } catch (IOException e) {  
            System.err.println(e.getMessage());  
        } catch (InterruptedException e) {  
            System.err.println(e.getMessage());  
        }  
    }  
    public static void main(String[] args) {  
        System.out.println("start");  
        new KafkaSend().produce();  
        System.out.println("finish");  
    }  
}

编写消费者代码

package my.scala  
import org.apache.spark.SparkConf  
import org.apache.spark.streaming.StreamingContext  
import org.apache.spark.streaming.Seconds  
import scala.collection.immutable.Map  
import org.apache.spark.streaming.kafka.KafkaUtils  
import kafka.serializer.StringDecoder  
import kafka.serializer.StringDecoder  
object SparkReceive {  
  def main(args: Array[String]) {  
  
    val sparkConf = new SparkConf().setAppName("countuser").setMaster("local")  
    val ssc = new StreamingContext(sparkConf, Seconds(2))  
    ssc.checkpoint("checkpoint")  
    val topics = Set("kafkasendspark")  
    val brokers = "localhost:9092"  
    val zkQuorum = "localhost:2181"  
  
    val kafkaParams = Map[String, String](  
        "metadata.broker.list" -> brokers,  
        "serializer.class" -> "kafka.serializer.StringEncoder"  
    )  
  
  
    val lines = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc, kafkaParams, topics)  
    val addFunc = (currValues: Seq[Int], prevValueState: Option[Int]) => {  
      //通过Spark内部的reduceByKey按key规约，然后这里传入某key当前批次的Seq/List,再计算当前批次的总和  
      val currentCount = currValues.sum  
      // 已累加的值  
      val previousCount = prevValueState.getOrElse(0)  
      // 返回累加后的结果，是一个Option[Int]类型  
      Some(currentCount + previousCount)  
    }  
    val result=lines.map(line => (line._2.split("\t")) ).map( row => (row(0),1) ).updateStateByKey[Int](addFunc).print()  
  
    ssc.start();  
    ssc.awaitTermination()  
  }  
}

五、运行程序

在Eclipse的SparkReceive类中右键并点击==>Run As==>Scala Application选项。

然后在KafkaSend类中：右键点击==>Run As==>Jave Application选项。

即可在控制窗口Console中查看输出结果为：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

kafka

spark

Java

Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作的相关文章

如何让 Spring 控制器从 POJO 返回 CSV？ [复制]

这个问题在这里已经有答案了给定一个简单的 Java 对象 public class Pojo private String x private String y private String z getters setters 是否有一些
通过 WebStart 运行时 Java 7 更新 55 JacORB 错误

自从更新到 Java 7 update 55 以来我无法运行我的 WebStart java 应用程序当通过 WebStart 启动时该应用程序在 Java 7 update 51 下运行良好当在 WebStart 之外启动时它还
如何找出导致 poi 损坏 xlsx / xlsm 文件的原因

我遇到的问题是 Apache POI 仅通过读取和写入就损坏了 xlsm xlsx 文件例如使用以下代码 public class Snippet public static void main String args throws
setSize() 不起作用？

我有一个程序需要两个按钮一个是常规按钮另一个具有根据鼠标悬停而变化的图片目前由于图片很大 JButton自定义也很大我可以更改自定义的大小并保持图像和翻转图像成比例吗我尝试过 setSize 但它没有任何作用对于任何反馈
Eclipse 调试“未找到源”

我刚刚开始使用 Eclipse 所以慢慢来吧但是当尝试调试 JUnit 测试用例时我会收到一个对话框指出当我在测试方法中的代码中找到此行时未找到源代码 Assert assertEquals 1 contents size 我知道
将 hyperjaxb3 升级到 jpa 2.1

我正在尝试在使用 maven jpa hibernate 和 hyperjaxb 的 eclipse 项目中升级到 JPA 2 1 当我尝试执行以下操作时出现以下错误Run As Run on Server从日食内部 java lang N
Android 上 WebRTC 的自定义视频源

Overview 我想使用自定义视频源通过 WebRTC Android 实现来直播视频如果我理解正确的话现有的实现仅支持 Android 手机上的前置和后置摄像头以下类与此场景相关 Camera1Enumerator java ht
如何在android中播放内部和外部SD卡中的mp3文件？

我正在开发一个 mp3 播放器应用程序它可以播放内部 SD 卡内任何位置的 mp3 文件我使用以下代码来获取内部存储中存在的 mp3 文件 ArrayList
Play Framework 2.5.1 路由和依赖项注入（适用于 Java）

我的路线文件中有这个 POST accounts controllers AccountsController createOneAccount 在我的 AccoutsController java 中 package controll
阻止 GWT 中的事件冒泡

我有以下代码片段 changeTextArea 是一个 TextArea 对象 changeTextArea addKeyboardListener new KeyboardListenerAdapter public void onKey
如何在Java中实现复合模式？

我想实现一个复合模式Java以便绘制软件开发组织图因此我们假设有多个项目经理和多个开发人员每个开发人员都被分配给一位项目经理并且每个开发人员都能够使用各种编程语言进行编码项目经理领导开发人员并准确了解他们的工作量我对这个设计模式
如何在调整大小时更改 JLabel 字体大小以填充 JPanel 可用空间？

这里有一个类似的问题如何更改 JLabel 的字体大小以获取最大大小 https stackoverflow com questions 2715118 how to change the size of the font of a jl
CTRL-C 在 Python 中的行为有所不同

I ve recently started learning Python long time Java programmer here and currently in the process of writing some simple
是否可以将自定义清单添加到 Netbeans 6.7.1 中编译的 Java 库中？

我尝试添加manifest file src dir manifest mf到project properties 但是查看build impl xml我发现manifest available通常伴随着main class条件所以这让我
部署到 Glassfish 4.1 时 URL 模式无效

如果用户已经通过身份验证我有一个网络过滤器可以从登录和索引页面重定向最初我有一个无效的 URL 模式我修复了无效模式并尝试重新部署以接收以下内容 java lang IllegalArgumentException Invalid U
需要使用自定义类而不是在 Web 服务中生成（通过 wsimport）

您能帮忙解决以下问题吗当生成 WS 客户端代码使用 wsimport ant 任务时所有类都会在与 Web 服务相同的包例如 helloservice endpoint 中自动生成例如如果我的网络服务有方法公共节点 getNo
如何使用 log4j2.xml 配置 hibernate 日志记录？

我最近切换到 Apache log4j2 但仍然找不到使用 log4j2 xml 配置 hibernate 日志记录的方法因为我找不到解决此问题的方法所以我仍然显式使用 log4j properties 文件进行休眠这不是最好的解决方
有没有办法让 SonarQube 只警告不完整的 Switch 语句？

使用 Java SonarQube 抱怨枚举值上的 switch 语句没有default case 给出的推理是最终默认条款的要求是防御性编程该条款应采取适当的行动或包含关于为什么不采取行动的适当评论当开关盖上时枚举的所有当前值
与 System.in.read() 一起使用的文件结尾/流键盘组合是什么

如果这个小问题已经得到解答我深表歉意我无法在SO找到它使用以下 Java 简单代码从 IDE 控制台读取行 Windows 7 和 Eclipse Kepler int v try while v System in read 1 S
切换按钮形状不变

我正在尝试制作一个带有绿色背景的圆形切换按钮我用了

随机推荐

dword ptr指令讲解

dword ptr指令讲解 8086CPU的指令可以处理两种尺寸的数据 byte和word 所以在机器指令中要指明指令进行的是字操作还是字节操作对于这个问题汇编语言中用一下方法处理 1 通过寄存器名指明要处理的数据的尺寸例如下面
linux配置交换内存（虚拟内存）

虚拟内存 Virtual Memory 是操作系统内存管理的一种技术它将主存虚拟化使得程序可以获得更大的可用内存空间虚拟内存的主要优点有提高内存利用率可以加载更大的程序到内存中执行提供了内存保护避免程序间相互干扰实现了懒加载
【FPGA多周期约束】

多周期约束及语法一什么时候需要用到多周期约束 Vivado TimeQuest等时序引擎默认是按照单周期关系分析数据关系的即数据在发起沿发送在捕获被捕获发起沿和捕获沿相差一个周期但是很多情况是数据路径逻辑较为复杂导致延时较大
朴素贝叶斯基本原理和预测过程、先验概率、后验概率、似然概率概念

贝叶斯原理是英国数学家托马斯贝叶斯提出的贝叶斯原理建立在主观判断的基础上在我们不了解所有客观事实的情况下同样可以先估计一个值然后根据实际结果不断进行修正举例一个袋子里有10个球其中6个黑球 4个白球那么随机抓一个黑球的概
关于电商秒杀系统中防超卖、以及高性能下单的处理方案简述

秒杀抢购系统的成功平稳运行有一些需要注意的知识点 1 高并发以及刷接口等黑客请求对服务端的负载冲击 2 高并发时带来的超卖即商品数量的控制 3 高负载下下单的速度和成功率的保证 4 其他以秒杀单品为例如抢小米手机解决方案探讨
大型网站架构核心要素之可用性：高可用架构

前言上节我们讲了网站核心要素之性能这节我们接着讲第二个核心要素可用性网站的可用性描述的是一个网站是否可以正常使用的特性这个特性是比较关键的直接影响公司形象和利益因此也有很多大公司把这点作为技术人员的绩效考核之一既然那么重要
Springboot毕设项目地铁站自动售票系统77x9w（java+VUE+Mybatis+Maven+Mysql）

项目运行环境配置 Jdk1 8 Tomcat8 5 Mysql HBuilderX Webstorm也行 Eclispe IntelliJ IDEA Eclispe MyEclispe Sts都支持项目技术 Springboot myb
Plotly Express 详细使用指南，20组案例从入门到进阶(附源代码)

作者阳哥出品 Python数据之道 ID PyDataLab 大家好我是阳哥今天跟大家分享的是 Plotly Express 的详细使用教程 Plotly Express 是 Python 交互式可视化库 Plotly 的高级组件
【Deepin-15.11】下【Datax】使用【插件】进行【csv文件读写】

接上 1 将Downloads目录下的压缩包放到指定文件夹下题目要求 2 按照要求创建文件夹题目要求 3 Github Datax txtfilereader模板官网将模板copy下来写入文本文档并修改后缀名复制到job 题目指定
Android Studio 中如何添加ViewModelProviders依赖?

我的做法是在class类中直接导入文件 import androidx lifecycle ViewModelProvidels 一个小白就当是记录一下啦
86-信号和槽-信号与槽的参数

信号与槽的参数上节介绍了信号与槽的基本使用方法本节介绍其参数传递的情况通过为槽函数传递特定的参数可以实现更复杂的功能既可以传递 Qt 的内置参数也可以传递自定义参数当然内置参数和自定义参数也可以放在一起传递自定义参数既可以
不习惯的 Vue3 起步六の Echarts绘制下钻地图

序看过一些可视化大屏展示地图的例子准备动手做做既然要开始比制作那么先把目标定好做一个展示中国城市的下钻地图使用 Vue3 Vite Typescript echarts 实现效果准备工作创建项目因为准备使用Vue3 Vit
Vue——自定义指令

自定义全局指令注使用指令时必须在指名名称前加前缀v 即v 指令名称 Vue directive hello bind 常用 alert 指令第一次绑定到元素上时调用只调用一次可执行初始化操作 inserted alert 被绑定元素
【上位机】通过QTCreator编写WIFI上位机与网络调试助手通信绘制曲线

文章目录前言一使用QT Creator编写上位机二上位机与网络调试助手联调三总结前言 17年电赛H题中要求编写WIFI上位机实现远程幅频特性曲线显示以下是本人在近期摸索出来的一些心得及体会一使用QT Creator编写
目前有哪些好用的测试管理工具？

PingCode Testhub Zephyr for jira 禅道等都是当下不错的测试管理工具其实就测试用例管理工具或Bug管理工具来说当前市场上种类并不少功能也各有特色我们在工具选型过程中最大的问题并不是不知道有哪些好的工具
FastDFS单机部署安装

FastDFS单机部署安装文章目录 FastDFS单机部署安装前言 1 服务器规划 2 安装包 3 所有tracker和storage节点都执行如下操作 3 1 安装所需的依赖包 3 2 安装libfatscommon 3 3 安装Fa
mac电脑屏幕录制Berrycast Mac屏幕录制软件

Berrycast是一款为Mac设计的优秀屏幕录制软件它让屏幕录制变得简单而高效以下是Berrycast的一些主要特点简单的用户界面 Berrycast拥有直观和简洁的用户界面使得用户可以轻松上手高质量的视频输出 Berrycas
Vue2开发插件并发布到npm

Vue3 TS Vite开发插件并发布到npm 目标创建vue amazing selector下拉框组件并发布到npm 效果如下图默认时样式禁用时样式创建vue项目 vue create vue amazing selector
指针和引用的区别

从概念上讲指针从本质上讲就是存放变量地址的一个变量在逻辑上是独立的它可以被改变包括其所指向的地址的改变和其指向的地址中所存放的数据的改变而引用是一个别名它在逻辑上不是独立的它的存在具有依附性所以引用必须在一开始就被初始化而
Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作

一案例说明现有一电商网站数据文件名为buyer favorite1 记录了用户对商品的收藏数据数据以 t 键分割数据内容及数据格式如下二前置准备工作项目环境说明 Linux Ubuntu 16 04 jdk 7u75 lin

Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作

一、案例说明

二、前置准备工作

项目环境说明

三、编写程序代码创建kafka的producer

1、新创一个文件folder命名为lib，并将jar包添加进来。（可以从我的博客主页资源里面下载）

2、进入以下界面，移除Scala Library。

3、操作完成后，再点击Add Library选项

4、进入以下界面

5、点击完成即可

6、最后创建如下项目结构的文件

四、编写代码，运行程序

五、运行程序

Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作 的相关文章

随机推荐

热门标签

Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作的相关文章