Delta Lake 独立于 Apache Spark？

2024-05-07

我一直在探索数据湖屋概念和 Delta Lake。它的一些功能看起来真的很有趣。就在项目主页上https://delta.io/ https://delta.io/有一个图表显示 Delta Lake 运行在“您现有的数据湖”上，但没有提及 Spark。在其他地方，它表明 Delta Lake 确实运行在 Spark 之上。所以我的问题是，它可以独立于Spark运行吗？例如，我是否可以在我的架构中不使用 Spark 的情况下，使用 S3 存储桶设置 Delta Lake 以进行 Parquet 格式的存储、模式验证等？

您可能会关注这一点：https://github.com/delta-io/delta-rs https://github.com/delta-io/delta-rs

它还处于早期阶段，目前是只读的，但随着项目的发展值得关注。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

deltalake

Delta Lake 独立于 Apache Spark？的相关文章

如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
使用 Spark SQL 时找不到 Spark Logging 类

我正在尝试用 Java 进行简单的 Spark SQL 编程在程序中我从 Cassandra 表获取数据将RDD into a Dataset并显示数据当我运行spark submit命令我收到错误 java lang Class
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488

随机推荐

是否有更好的方法来实现可继承的方法，该方法返回继承该类类型的对象？

我正在尝试创建一个基类它指定一个返回的方法比如它自己类型的列表我希望这个方法能够在继承类上正确工作即返回继承类的列表这是我能想到的唯一方法 public abstract class Base
Postgres 在并发更新插入时出现死锁

我们有一个从数据流中读取信息并将该信息更新到数据库中的应用程序数据是 Google Drive 上发生的变化这意味着影响相同对象的许多事件可能会非常接近地发生将此信息更新插入数据库时我们遇到了死锁日志中显示的内容如下我已经重建并
Java AWT/Swing：获取有关窗口位置/大小变化的通知

我有一个窗口我希望在位置或大小发生变化时收到通知哪种类型的听众最适合 WindowListener不适合我您可以使用组件监听器 http docs oracle com javase tutorial uiswing events c
Django 说端口已被使用

当我运行 Django 时runserver命令显示端口已在使用中所以每次我都需要杀死使用该端口的进程并再次运行服务器谁能给我一个永久的解决方案您可以使用另一个端口因为可能是port您正在使用的有一些问题 python manage
通过反射获取给定类的可访问方法列表

有没有办法获取给定类可访问不一定是公共的方法列表有问题的代码将属于完全不同的类 Example public class A public void methodA1 protected void methodA2 void meth
无法在 Mac 上将 JanusGraph 连接到本地 Cassandra

我已在 Mac OS X 10 11 6 上安装并运行 Cassandra 3 11 1 跑步cqlsh在终端中打印以下消息 Connected to Test Cluster at 127 0 0 1 9042 cqlsh 5 0 1 C
Android 在 ListView 中获取精确的滚动位置

我想获得 ListView 滚动的确切像素位置不我指的不是第一个可见位置有办法实现这一点吗好的我找到了一个解决方法使用以下代码 View c listview getChildAt 0 int scrolly c getTop
内部框架与新的 C# 技术

如果我们开发了自己的 ORM 框架并且该框架多年来运行良好那么我们为什么要学习和使用全新的 net 技术例如LINQ or Entity Framework or NHibernate or CSLA NET对于我们即将进行的软件项目
使用 Apache POI 将结果集转换为 Excel (*.xlsx) 表

我正在尝试写结果集到 Excel xlsx 表使用 Apache Poi Office Excel 中的无效表对象错误但是即使它写入 Excel 文件时没有任何错误但当我尝试在 Office Excel 2013 中打开它时它会显示
如何确定 Windows 当前是否正在播放任何声音？

如何确定 Windows 当前是否正在通过主音频设备播放任何声音我需要知道这样我才能让我的程序自动调节音量您可以使用 CSCore 在这里下载 gt http cscore codeplex com http cscore codep
使用 matplotlib 显示网格中的值

我正在尝试为一些数据生成热图我的代码如下所示 data basis 2007 2008 1 2 2 3 4 2 0 2 2 3 4 1 2 5 4 5 8 1 2 5 5 4 3 6 6 1 4 5 9 x header data 0 1
运行命令后存在来自 rocker/r-ver:4.0.4 的容器

这是我的 Dockerfile FROM rocker r ver 4 0 4 在 cmd 中我构建 docker build t myfolder myimage 它塑造的形象很好然后我跑 docker run myfolder myi
使用 OAuth2 对应用程序*和*网站进行身份验证

我正在开发一个主要通过应用程序访问的网站我想使用 OAuth2 进行用户注册和身份验证由于它是一个 Android 应用程序我将开始使用 Google 的 OAuth2 东西因为它在 Android 上提供了一个不错的 UI 谷歌表
在 PHP 中生成 Excel 输出的最佳方法是什么？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案还有其他类似 PHPExcel 的 PHP 组件吗有一些类可以生成 PHP Excel 文件真正的 Excel 文件而不是 csv
PostScript：“cvs”是否终止字符串缓冲区？

使用时的一个想法cvs是通过重用字符串缓冲区来帮助垃圾收集器例如 s 5 string def s 2 cvs s 66 cvs 然而当在循环中执行此类操作时实际在缓冲区中找到的字符串是 40 0 30 0 20 0 10 0 0 0
如何自动执行/安排 IIS 中托管的 WCF 服务调用？

我有一个非常简单的服务合同用于管理自己的数据导入类似于 using System ServiceModel namespace Company Services Domain Contract ServiceContract Name
如何在链接到表单的工作表中执行 Google 工作表脚本之前等待 Google 表单脚本完成执行

我有两个脚本一个链接到 Google 表单另一个链接到 Google 表格我需要确保 Google 表单脚本在执行链接到 Google 表单的工作表的 Google 工作表脚本主体之前完成执行如何才能做到这一点需要等待 Googl
Python Tkinter OOP 布局配置

我正在尝试使用 tkinter 构建一个应用程序该布局在没有 OO 原则的情况下工作但我很难理解应该如何将其转移到 OO The layout is as shown in the pic below 1280x720px 我有以下内容
河内塔与蟒蛇“柜台”

我已经用 python 编写了河内塔的代码我试图添加一个计数器来显示它运行了多少次我尝试了一些东西例如 while 循环和 for 循环等但它不起作用我确信答案很简单但我的大脑现在运行在最低设置上我的代码如下所示 def
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar

Delta Lake 独立于 Apache Spark？

Delta Lake 独立于 Apache Spark？ 的相关文章

随机推荐

热门标签

Delta Lake 独立于 Apache Spark？的相关文章