使用 Spark Streaming 更新基于 Kafka Stream 的静态源？

2024-02-02

我正在使用带有 java8 的 Spark-sql 2.4.1v。

我有一个场景，dataset1 中有一些元数据，即从 HDFS Parquet 文件加载。

我还有另一个从 Kafka Stream 读取的 dataset2。

For each record from dataset2 for column1 I need to check  columnX in dataset2 
if its there in dataset1. 

If it is there in dataset1,then I need replace the columnX value with column1 value  of dataset1 
Else
  I need to add increment (max(column1 ) from dataset1 ) by one and store it dataset1.

您可以在此处查看一些示例数据：

https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/1165111237342523/3447405230020171/7035720262824085/latest.html https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/1165111237342523/3447405230020171/7035720262824085/latest.html

如何在 sSpark 中完成此操作？

Example:

val df1 = Seq(
  ("20359045","2263"),
("8476349","3280"),
("60886923","2860"),  
("204831453","50330"),
("6487533","48236"),
("583633","46067"),  
  ).toDF("company_id_external","company_id")

 val df2 = Seq(
  ("60886923","Chengdu Fuma Food Co,.Ltd"), //company_id_external match found in df1 
("608815923","Australia Deloraine Dairy Pty Ltd ),
("59322769","Consalac B.V.")
("583633","Boso oil and fat Co., Ltd.      ") //company_id_external match found in df1
  )toDF("company_id_external","companyName")

如果在 df1 中找到匹配项

Here only two records of df1 "company_id_external" matching to df2 "company_id_external"
    i.e. 60886923 & 583633  ( first and last record)

    For these records of df2  
    i.e. ("60886923","Chengdu Fuma Food Co,.Ltd")  becomes ==> ("2860","Chengdu Fuma Food Co,.Ltd")
          ("583633","Boso oil and fat Co., Ltd.      ")  becomes ==>  ("46067","Boso oil and fat Co., Ltd.      ")

否则在 df1 中找不到匹配项

对于df2的其他两个，df1中没有“company_id_external”匹配，需要生成company_id并添加到df1 即（“608815923”，“澳大利亚德洛兰乳业有限公司）， ("59322769","Consalac B.V.")

company_id生成逻辑新的 company_id = df1 + 1 的 max(company_id) 从上面的最大值是 50330 + 1 => 50331 将此记录添加到 df1 即 ("608815923","50331") 对其他记录执行相同操作，即将此记录添加到 df1，即 ("583633"，"50332")

 **So now** 

df1 = Seq(
        ("20359045","2263"),
        ("8476349","3280"),
        ("60886923","2860"),  
        ("204831453","50330"),
        ("6487533","48236"),
        ("583633","46067"), 
        ("608815923","50331")
        ("583633","50332")
          ).toDF("company_id_external","company_id")

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Spark Streaming 更新基于 Kafka Stream 的静态源？的相关文章

为什么使用SignTool进行代码签名时需要指定时间戳服务器？

时间戳是可选参数所以有人可以解释带时间戳的exe文件和不带时间戳的exe文件之间的区别吗如果我跳过此选项会发生什么如果您跳过时间戳选项那么当您的证书过期时 exe 将不再具有有效的证书如果您使用时间戳服务器那么 exe 将始终具
ASP.NET 入口点？

刚刚创建了一个空白的 ASP NET Web 应用程序切入点在哪里我看到 Default aspx 似乎是调用的默认模板我猜 Site Master 充当布局文件 Global asax 似乎提供了一些用于事件处理的方法存根然后是
PSQLException：错误：关系“TABLE_NAME”不存在

我正在尝试在 PostgreSQL 8 4 2 DB 上运行休眠每当我尝试运行简单的java代码时例如 List
RIMM 流文件格式中各个帧的格式是什么

我正在尝试从黑莓设备捕获一些视频帧并将其作为图像进行操作特别是进行条形码解码我找到了一些示例代码和规范文档其中演示了如何使用 J2ME MMAPI 类将视频从设备的摄像头流式传输到文件和输出流流媒体文件采用 RIM 专有的 RIMM
angular-cli：Karma-Webpack 因“没有此类文件或目录”而失败

我从Tour of Heroes使用标准 Angular systemjs 现在我正在使用angular client它在开发生产模式下运行顺利但我无法测试任何东西ng test 以下内容会被吐出不仅适用于test ts但也为了pol
PostgreSQL 使用 JPA 和 Hibernate 抛出“列的类型为 jsonb，但表达式的类型为 bytea”

这是我的实体类映射到表中postgres 9 4 我正在尝试将元数据存储为jsonb在数据库中输入 Entity Table name room categories TypeDef name jsonb typeClass JsonBi
1° 夏令时 Java 和 JS 表现出不同的行为

假设巴西利亚 GMT 0300 夏令时于 21 10 2012 00 00 00 此时时钟应提前一小时 Java new Date 2012 1900 9 21 0 0 0 Sun Oct 21 01 00 00 BRST 2012 Chr
如何通过 jQuery onblur 提交表单

所以我尝试通过 jQuery onblur 提交表单即一旦焦点离开密码字段表单就会通过 jQuery 提交有类似的问题但这不是我要找的我尝试使用 document getElementById 但它不起作用任何帮助表示赞赏提前
Linux Bash grep 从匹配字符串中提取单词

我有以特殊字符开头的数字并以900现在我想提取排除它们之间的文本我的代码 gt gt cat demo txt asdfsdf 1234900 asdf dfasd asdf 1345900 asdfad wer 678900 asdf
散列 hash_hmac 时，Convert.ToChar(0) 散列结果与 PHP 中的 chr(0) 不同的字符串

我在 PHP 中有一个字符串它被转换为字节数组并进行哈希处理转换为字节数组的字符串如下所示 G 字符 0 便便我需要 C 中的等效字节数组这样我才能得到相同的哈希值编辑这是完整的问题生成的哈希值不同 PHP api secre
如何从停止的地方开始播放视频

我正在使用 VideoView 来播放视频如果我退出应用程序在返回应用程序即在 onResume 中时它应该从停止的位置播放视频要获取当前进度在 onPause 中检查 long progress mVideoView get
Laravel Echo 不监听推送事件

尝试使用 laravel 和 vuejs 创建一种聊天应用程序发送消息后我会从 laravel 触发事件该事件会使用正确的事件类反映在推送器调试控制台上但根本不会调用来自 vuejs 的监听回调 created window Ech
尝试访问从资产复制到数据\数据\的数据库中的DatabaseHelper时出现空指针异常

我有一个数据库助手类代码如下这个助手的类任务是将数据库从应用程序附带的资产文件夹复制到我的应用程序的 data data 中以便我可以使用它一旦我将数据库放入 data data 我能够我想添加它并执行 CRUD 操作并且该数据
gwt - 在 RPC 调用中使用 List？

我有一个 RPC 服务方法如下 public List
常用姓名别名/昵称数据库

我参与了一个 SQL NET 项目该项目将搜索名称列表我正在寻找一种方法来返回类似名字的人的一些结果如果搜索 Tom 结果将包括 Thom Thomas 等这是文件还是 Web 服务并不重要设计示例 Table Names has
KeyboardAvoidingView“行为”中的高度与位置与填充

KeyboardAvoidingView 中有一个行为属性例如 import KeyboardAvoidingView from react native
在 Android 上使用 pocketsphinx 未检测到关键字

谁能解释一下如何使用 pocketsphinx 将语音转换为文本我试试这个 import com example speechtutor SpeechRecognizerRecorder import com example speech
文件构造函数说明

我无法理解以下文件构造函数 public File String parent String child and public File File parent String child 参数有什么作用parent and child该文件
Spring JMS开始根据请求监听jms队列

Spring提供 JMSListener用于监听来自特定队列的消息的注释还有一个替代方案实施JmsListenerConfigurer http docs spring io spring docs current spring fram
关闭 IPython Notebook 中的自动保存

我正在寻找一种方法来关闭 iPython 笔记本中的自动保存我已经通过 Google Stack Overflow 搜索看到了有关如何打开自动保存的参考资料但我想要相反的内容关闭自动保存如果这是可以永久设置的东西而不是在每个笔记本的

随机推荐

Python：防止信号传播到子线程

import threading import time def worker i while True try print i time sleep 10 break except Exception msg print msg thre
Angular，从当前服务调用服务功能

我有一个名为 sharedData 的服务其中包含一些函数如何从另一个此类函数调用其中一个函数这里是代码用标记故障函数谢谢 service sharedData function http var refillList var
将 numpy 数组与公共维度“合并”[重复]

这个问题在这里已经有答案了我有两个矩阵对应于数据点 x y1 and x y2 x y1 0 0 1 1 2 2 3 3 4 4 5 5 x y2 0 5 0 5 1 5 1 5 2 5 2 5 3 5 3 5 4 5 4 5 5 5
卡桑德拉不可用异常（）

线程 main 中的异常不可用异常在 org apache cassandra thrift Cassandra batch mutate result read Cassandra java 16485 在 org apache cas
如何将空跨高度设置为等于默认行高？

我有一套 span 元素每个元素都嵌套到对应的 div 他们构建了一堆面板如下图所示当 span 包含一些文本时它具有正常的高度但是当它为空时它的高度是0px 但我需要它有一个正常的高度使它看起来像图片中的那样如何实现这种行
jade/pug 是否可以在 include 语句中使用变量？

我正在开发 Nodejs 应用程序但我对 include 语句有疑问当我像这样使用它时它会起作用 include mixins root pug 但是可以在包含中使用变量吗这些都不起作用 include process env MIX
context="module" 在 Svelte 和 Sapper 中如何工作？

当我使用 Sapper 构建项目时每当我从服务器获取数据时预加载函数都会在 script context module 内部声明如下所示根据document
可以在cmd中启动多线程命令吗？

我有大约 290 个文件需要在短时间内优化当我做optipng png大约需要10分钟才能完成交易然而当我这样做时optipng a png and optipng m png在两个单独的命令行中它可以在 5 分钟内完成工作现在有没
如何以编程方式使 iOS 文本标签居中对齐？

我想设置文本标签的对齐方式该怎么做我认为这些答案对您有帮助正确的方法是 yourLabelName textAlignment NSTextAlignmentCenter 有关更多文档您可以阅读以下内容 https develope
如何从另一个 xml 模式扩展一个 xml 模式？

我有一个类似于下面的 xml 文档 resources xml 以及相应的 xml 架构 resources xsd 该 xml 文档是手动维护的即添加删除编辑资源元素总共可能有 500 1000 个资源元素每个资源可以是vari
INI 文件 - 通过 VBS 中的键名检索节名

我想从 INI 文件中检索仅具有唯一键名称的部分名称我的ini文件 Area 104 Title Central North America Local Scenery NAMC Layer 104 Active TRUE Require
Modbus 无法从 epever Tracer 1210a 读取数据到树莓派

我想为tracer制作一个监控程序我使用 RS485 USB 转换器将 epever Tracer1210a 连接到树莓派 3 型号 B from pymodbus client sync import ModbusSerialClien
如何为后备字体设置不同的字体粗细？

我在网站上使用的自定义字体遇到了问题所以我对文本使用以下 CSS font family Open Sans Helvetica Arial font weight 600 由于网站是用我的母语构建的我必须使用 UTF 8 符号这似乎
仅在 GUI 模式下运行某些 Emacs init 命令

有没有办法仅当我处于 GUI 模式而不是终端模式时运行某些命令来自 init el 我想在运行 GUI 版本时设置某种颜色方案但该方案严重破坏了终端窗口的颜色我正在寻找一些变量函数它看起来像这样 if gui mode color
何时在客户端和通用 GWT 代码中使用断言

StackOverflow 上有几个问题讨论何时应该使用断言语句而不是抛出异常例子here https stackoverflow com questions 4333371 when to use assert and when to
如何取消 WPF TabControl 中的选项卡更改

我在 SO 上发现了有关此问题的多个问题但是我仍然无法完全获得可靠的解决方案这是我在阅读答案后得出的结论 Xaml
有没有一个好的基于浏览器的沙箱来练习正则表达式？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
显示 QTreeView 的（可见）行数

I found 这个问题 https stackoverflow com q 41634176 595305 and 这个问题 https stackoverflow com q 15817429 595305 我也在其他地方搜索过情况是
如何测试 nuxt.js asyncData 和 fetch 挂钩

我一直在尝试测试使用 nuxt 的文件 asyncData 和 fetch hooks 测试 vue js 正常生命周期没有问题但我注意到 vue test utils 没有给出有关如何测试 nuxt 的明确说明钩子登录 vue asy
使用 Spark Streaming 更新基于 Kafka Stream 的静态源？

我正在使用带有 java8 的 Spark sql 2 4 1v 我有一个场景 dataset1 中有一些元数据即从 HDFS Parquet 文件加载我还有另一个从 Kafka Stream 读取的 dataset2 For each

使用 Spark Streaming 更新基于 Kafka Stream 的静态源？

使用 Spark Streaming 更新基于 Kafka Stream 的静态源？ 的相关文章

随机推荐

热门标签

使用 Spark Streaming 更新基于 Kafka Stream 的静态源？的相关文章